LLMやAIエージェントの潮流とその先の展望

レポートサマリー

現代社会において、LLM(大規模言語モデル)やAIエージェントの進化は、業務効率化や新たな価値創出を実現しつつある。これらの技術は、企業の競争力向上や社会構造の変革を促進するものであり、その影響は広範囲に及ぶ。本レポートでは、LLMやAIエージェントの潮流を俯瞰し、技術的背景や現時点での実用化事例を整理するとともに、それらがもたらす未来の可能性を考察する。
また、「マシンワーカー」や「マシンカスタマー」といった新たな役割が社会に登場する可能性が議論されている。これらの概念を「その先の展望」として位置づけ、更なる変革の可能性についても掘り下げる。

1. LLMとエージェントシステムの基礎


1.1 LLMの概要と進化

LLM(大規模言語モデル)は、人間に近い自然言語処理能力を持つAIモデルであり、テキスト生成、要約、翻訳といった多岐にわたるタスクを実行可能にしている。代表的な例として、OpenAIのGPTシリーズやMetaのLlamaシリーズが挙げられる。これらのモデルは、生成能力の向上にとどまらず、推論や意思決定を支援する新たな用途へも応用が広がっている。特に近年では、マルチモーダルモデル(例:GPT-4の進化形態)や科学技術推論に特化したモデル(例:OpenAI o1)など、高度かつ専門的な応用が可能なLLMが登場している。これにより、複雑なタスクへの対応能力が飛躍的に向上した。LLMの進化は、AIエージェントの機能を支える技術基盤として位置づけられ、その可能性を大幅に広げる要因となっている。


1.2 AIエージェントの定義

AIエージェントとは、目標を与えると自らのタスクを洗い出し、実行するプログラムを指す。従来のルールベースシステムと異なり、自らの行動規範に基づいて、複雑なタスクを遂行しながらも環境の変化に応じて適切に行動を調整することができる点が特徴である。これにより、単一の作業のみならず、異なる作業領域にも対応可能となる。例えば、以下のようなタスク遂行能力が考えられる。

単一のタスクでは限定された環境内で実現できるものである。複数タスクでは時間や予算の制約条件のもと最適な意思決定を行うものである。クロスドメインではさらにユーザの選好といった制約条件を加えた上で自律的に意思決定をするものである。これらの制約条件がAIエージェントにおける行動規範の1つの例といえる。但し、上記はいずれも単一のAIエージェントがタスクを担うものである。


1.3 マルチエージェントシステムの概念

マルチエージェントシステム(Multi Agent System、以下MAS)は、複数のエージェントが相互に協力または競争しながらタスクを達成するシステムである。MASの最大の特徴は、個々のエージェントが相互作用することで、単一のエージェントでは対処しきれない複雑なタスクの効率的な分散処理を実現する点にある。

MASの利点は以下の通りである:

  • タスク分散による効率化: 各エージェントが役割を分担することで、タスクの完了速度を向上。
  • 動的な環境への適応: 環境変化に応じてエージェント間でリソースを再配分可能。
  • 複雑なワークフローの自動化: タスク間の優先順位調整や複雑な手続きの連携を可能にする。

これらの特性により、MASは特に高度なシステム構築や大規模な運用において重要な役割を果たしている。

2. 市場の現状と今後の展望


2.1 市場の現状

2024年の前半、この分野におけるOpenAI・Microsoft 陣営、Google、Meta、Anthropic等のビックテックの動向を調査した。その結果をまとめると以下の様になる。

OpenAI・Microsoft

Microsoftは、LLMマルチエージェントのフレームワーク「AutoGen」を提供している。このフレームワークでは、複数のAIエージェントが役割分担を行いながら、協調してタスクを遂行することが可能である。「Agent AutoBuild」ではマルチエージェントシステムの自動構築を支援し、Azureプラットフォーム上では「Azure OpenAI Assistant API」を通じて、企業が独自のエージェントシステムを構築できる環境を整えている。

Google
Googleは「Vertex AI Agent Builder」を提供し、ノーコードツールによるエージェント構築を実現している。また、「Gemini Code Assistant」を通じて、VS CodeやFirebaseといったツールとの連携を強化し、開発者が高度なAIエージェントを効率的に構築できる環境を提供している。

Meta
Metaは、最新のLLMであるLlama3を基盤にしたAIエージェントを開発し、これをアプリケーションや業務フローに統合する取り組みを進めている。これにより、より高度なカスタマイズと自律性を持つAIエージェントの実現が期待されている。

Anthropic
Anthropicは「Claude3」を活用し、エージェント構築を支援する機能(例:function call)を提供している。これらのツールにより、エージェント同士が効率的に連携しながら複雑なタスクを遂行する仕組みを実現している。

全体的な傾向
この様に、各社ともAIエージェントに関係する機能をリリースし始めている。しかしながら、高度に発達したAIエージェントを用いてどのような発展を実現するのかというロードマップ等が具体的に示されているものはほとんどない状況であった。国内外のスタートアップやIT企業の動向についても調査をしたが、この傾向については大きな違いは見られなかった。


2.2 LLMの進化と技術的発展

LLMの進化は加速しており、OpenAIがリリースしたGPT-4oのような本格的なマルチモーダルモデル(テキスト、画像、音声、動画など複数のデータ形式を統合的に処理できるAI)や、科学技術推論に特化したOpenAI o1(科学的知識や技術的データをもとに複雑な問題の解決や新たな洞察を得る能力を持つAI)など、新しいモデルが次々と登場している。これにより、AIエージェントの応用範囲が広がり、より複雑なタスクへの対応が可能になっている。LLMの技術的進展は、今年末から来年にかけても継続する見込みである。
またOpenAIはAIマルチエージェントを実装するフレームワーク 「swarm」 をGitHub上で公開した。 このフレームワークでは、それぞれの役割を持つAIエージェントが協調し、統率の取れた行動を実現する仕組みが提供されている(但し、公式のプロダクトではない点に留意が必要である)。AnthropicはComputer use という機能を提供し、ユーザがテキストで指示した内容に従って、パソコンの画面をマウスやキーボードで操作する機能を提供している。例えば、「1つ目のChromeのウィンドウには、Googleスプレッドシートのタブと、とあるベンダーの製品検索ページのタブが開かれています。2つ目のChromeのウィンドウには、入力フォームが開かれています。1つ目のウィンドウから情報を取得して、2つ目のウィンドウの入力フォームに入力してください。」と指示すると、マウスが該当タブを選択して検索し、情報をコピーした後、入力フォームにその情報を入力する。このように1つの指示から必要なタスクを洗い出し、順次実行する仕組みが実装されており、各社エージェントを実装する開発フレームワークやサービスを展開し始めている。


2.3 マシンカスタマーとマシンワーカーへの発展

2023年の初めにGartner社がマシンカスタマーとマシンワーカーという概念を提唱した。マシンカスタマーは支払いと引き換えにモノやサービスを自律的に購入できる人間以外の経済主体と言える。マシンカスタマーはデータや理論に基づいて合理的に行動する。サービス提供側からみると、人間の顧客のように顧客の琴線に触れるような感情に訴えた購買行動は期待できず、サービス提供側からの適切な情報の提示を受けたうえで、自らの購買における行動規範に基づき、意思決定を行うものである。マシンワーカーも同様に、データや規範に基づいて合理的に行動する主体である。組織内の規範に基づき、意思決定に必要なデータを自ら収集したうえで、合理的に行動する。例えば、自律走行する自動車はマシンカスタマーとなり、車の不具合を検知すると、データを送って修理工場に予約を入れることが期待される。また修理工場のマシンワーカーは送られてきたデータに基づいて修理に必要な部品在庫の確認や修理完了までの見込み時間を回答することや、他の修理工場含めて不具合傾向を分析することなどが期待される。これらはAIエージェントがLLMやその周辺技術の発展に伴い、進化した姿と考えられる。このように、AIエージェントの進化は、単なる技術の向上にとどまらず、産業や社会の在り方そのものを変革する可能性を秘めている。

ここで、AIエージェントの発展段階を3つのフェーズに分けて定義する。Phase 1ではまだ人間が労働活動の主体だが、Phase 2からはAIエージェントが労働活動の主体となり、Phase 3では複数のAIエージェントが協力して複雑なタスクを完遂する段階となる。そして、高度に発達したLLMやAIエージェントを手段として実現されるマシンワーカーという未来の労働活動が実現される。この発展段階を図示すると、下記のようなイメージになる。

3. AIエージェントを支える技術

AIエージェントの技術は次の3つの層に大別される(下図参照)。


エージェントが活用する手段(道具)

最下層には、エージェントがタスクを遂行するために活用する「道具」が位置している。たとえば、Multi-source RAGの技術により、文書や画像データがベクトルDBに格納され、LLMモデルを通じて情報が適切に取得される。RAG(Retrieval-Augmented Generation)を活用することで、データベースから数値情報の抽出や、Web検索機能を用いてインターネット上の情報を取得するなど、多様な情報源からのデータ収集が可能である。これらの道具を中間層に位置する自律型エージェントが活用し、タスクを遂行する。この階層の技術は、すでに実用段階に到達しているものが多く、具体的なユースケースも見られる。なお、Embodied Agent(環境と相互作用する身体を持つエージェント)は、現実空間や仮想空間で直接操作を行うことが想定されている。


自律型エージェント

中間層には、多様な道具をワークフローに従って組み合わせ、複雑なタスクを実行する「自律型エージェント」を実現する技術が存在する。エージェントのワークフロー構築には、空間推論能力、指示追従力、長文理解力、計画力、ツール利用力、自己修正力、汎化能力などが求められる。

例えば、マルチモーダルモデル(複数のデータ形式を処理できるモデル)は、エージェントが視覚情報を理解し、空間認識を行う際に不可欠である。現時点では、マルチモーダルモデルの精度は発展途上であるため、特定のタスクに特化した用途での利用が主流である。一方で、長文理解力など一部の技術は実用段階に到達しており、実際のタスクで効果的に活用されている。また、タスクのトリガーや終了条件も重要であり、エージェントが何をもって自身のタスクが完了したかを判断する基準が必要である。タスクが完了したと判断した場合、別のエージェントに次のタスクを渡すなどの処理が行われる。


タスクの分業とエージェント間の相互作業

最上層には、複雑なタスクを複数のエージェントで分担し、相互に協力して精度の高いタスク遂行を目指す技術が位置している。1つのエージェントだけで複雑なタスクを完了するのは難しいため、役割分担と相互連携を図ることが求められる。しかし、この階層の技術は研究段階にあり、各エージェントの役割の設定や情報の共有範囲を決定する方法、全体の統制を取るエージェントの設計など、多くの課題が残されている。

AIエージェントをビジネスに応用する際には、各技術の成熟度を考慮する必要がある。実用化段階にある技術要素はそのまま活用し、研究段階にある技術については人間からの支援を組み込むなど、柔軟な設計が求められる点に留意する必要がある。

4. AIエージェントが金融に与えるインパクト

生成AIとLLMの進化により、AIエージェントの実装が進み、金融業界においても活用が期待されている。これは従来のRPA(ロボティック・プロセス・オートメーション)による自動化を超え、業務プロセス全体のシステム化が可能になり、人間が行ってきた判断や処理の多くをエージェントが担うことが想定される。この変化に伴い、金融機関は人間を前提に構築されていた業務プロセスを再検討し、AIエージェントに最適化する動きが進むと考えられる。AIエージェントは、24時間稼働が可能となるだけでなく、各担当者の成果物品質のバラツキやバイアスを排除できると考えられる。AIエージェントが組織の基準に従い、ニュートラルに判断した結果を人間が確認し、最終的な意思決定をしていく方向性が考えられる。以下に、具体的な適用領域を紹介する。


審査業務の効率化

審査資料の作成:取引先企業の財務情報や訪問履歴などのデータをもとに、審査資料のドラフトを作成するAIエージェントが想定される。また、このドラフトを社内規程に基づいて検証し、記載内容の充足度を評価するAIエージェントも想定される。営業担当者は、これらのAIエージェントが生成した資料をもとに、審査の戦略的な判断など、人間にしかできないタスクを担うことになる。


AML(Anti-Money Laundering)の高度化

不正行為の検出:ISO 20022対応によって金融取引に関する情報の項目が拡充され、より多くのデータを保持できるようになった。ISO 20022は、国際的な金融メッセージの標準規格であり、取引データの一貫性や詳細な情報共有を促進するものである。これにより、不正取引の発見や疑わしいパターンの監視が強化されるが、人間だけでこの情報を精査するには限界がある。そのため、取引パターンを監視するAIエージェントや、新たな取引の類似性を分析するAIエージェントがサポートすることで、人間の判断を補完する体制が整うと考えられる。


顧客対応の強化

24時間の顧客サポート:チャットボットを介して24時間体制で顧客対応が可能になり、口座残高確認や取引履歴の提供にとどまらず、新規口座開設や各種変更手続きへの対応など、AIエージェントによる自動対応が見込まれる。さらに、複数のエージェントを組み合わせたマルチエージェントが実現すれば、顧客の資産運用、保険、相続、事業承継といった各種相談に総合的に対応することも可能となる。

5. その先の展望


5.1 マシンカスタマーとマシンワーカーが行う金融取引

LLMやAIエージェントが発展した暁には、前述したマシンカスタマーやマシンワーカーが実現されるようになる。金融取引における融資のケースで考えると以下のようなことが考えられる。企業内のマシンカスタマーは融資申込金融機関の探索にあたり、自社の事業計画や借入れ条件を鑑みて、いくつかの金融機関に融資の打診を行う。金融機関内のマシンワーカーは与信チェックを行い、自社の融資規程から融資諾否の判断まで実施する。ここに至るまでには、お互いのマシンから提供されたデータと各々が持つ借入れ条件や融資規程などの規範に基づき意思決定がなされる。また人間が行う際には稟議書といった社内の合意形成を図るための資料を作成するが、そのようなプロセスは存在しない。但し、諾否の結果含めて人間が最終責任を負うと想定されるため、マシンワーカーが判断した根拠は人間が見てもわかるように記録として残されることになると想定される。


5.2 マシンワーカー実現に向けての課題

マシンワーカーは、LLMやAIエージェントが高度に発達することで実現が想定される。一方、マシンワーカーの実現には法制度の整備や、商習慣含めて人々に受け入れられるか等の課題もあるが、ここでは行動規範となるデータに着目して、以下の2つの課題を示す。

  • 文書が人間に向けて作成されている
    現在は、人間が労働主体であるため、文書は人間が読みやすいように作成されている。図や表が多用されて、場合によっては写真や動画、音声などのメディア情報も多く利用されている。LLMやAIエージェントが高度化することで、人間向けに記載された文章をAIエージェントが読めるようになる可能性もあるが、マシンリーダブルな (LLMやAIエージェントが処理しやすい)形の文章に整理することが求められる。
  • 暗黙知が存在している
    業務において、すべての情報が明文化されていることは非常に稀で、何かしらの暗黙知が存在する。そういった知識はLLMやAIエージェントが活用できないため、暗黙知をできるだけ明文化することが求められる。

これらの文書化されたものがマシンワーカーにとって、行動の規範となりうる。


5.3 社会への影響

マシンワーカーが実用段階に進むことで、金融業界だけでなく、社会全体の働き方にも大きな変化が予想される。かつてインターネットやスマートフォンの普及が情報伝達や人々のつながりに変革をもたらし、行動データが蓄積されるようになったのと同様、マシンワーカーも社会に大きな影響を及ぼす可能性がある。コロナ禍では、スマートフォンを用いた人流データが人々の行動状況を把握し、感染防止に役立ったことが記憶に新しい。マシンワーカーによるデータ活用も同様に、私たちの生活や仕事の在り方に深い影響を与えると考えられる。

LLMの技術革新が進む今、この流れに対応し、多様なユースケースでマシンワーカーの実現可能性を検証することが重要である。マシンワーカーの発展が予想される社会的影響を完全に予測することは難しいものの、その可能性に目を向け、積極的な取り組みを進める必要がある。

最後に

昨今の生成AIをめぐる技術の進化はめまぐるしいものがあり、ビジネス活用を検討する場合の前提がすぐに変わってしまう状況が続いている。ここで取り上げたAIエージェントについても技術的な実現の可能性から、現実社会においてどのように活用していくかという点に議論が早晩移っていくものと考えられ、技術開発とともに不正対策や倫理問題といった点も含めた検討が必要になる。AIエージェントの進化は、単なる技術の向上にとどまらず、産業や社会の在り方そのものを変革する可能性を秘めており、既成概念にとらわれない新しい社会の在り方を人間が自ら作り出す創造性が求められている。

執筆者:高木 幸雄 プロジェクトディレクター
株式会社電通総研入社後、金融機関向けのシステム開発に従事。金融庁のブロックチェーンを用いた金融取引における技術リスクに関する調査研究に従事した他、AIなどの技術を用いた研究開発に従事し、主にビジネス面からプロジェクトをリード。

執筆者:里中 裕輔 データサイエンティスト
2017年から金融機関に向けてAIなどの技術を導入する案件に従事。また、自然言語処理に関する強みを生かして先端技術の研究開発をリードしており、新規事業開発に向けた技術検証にも取り組んでいる。

スペシャルコンテンツ