コラム

MRIトレンドレビューデジタルトランスフォーメーション

実用化が始まる文章生成AI 第3回:マーケットデータを用いた市況概況自動生成

タグから探す

2020.7.1

金融イノベーション本部天野厳斗

本コラムでは第2回に続き、文章生成AIの実用例として、マーケットデータを用いた市況概況の自動生成試行を紹介する。対象の文章は、マネックス証券が公開している実際のオリジナル市況概況※1であり、マネックス証券マーケット・アナリストの協力のもと共同で作成した。

1. 市況概況の自動生成

「本日の日経平均は127円安の20,987円と小幅に続落しました。東証株価指数(TOPIX)やJPX日経400も下落しましたが、新興市場のマザーズ指数は小幅に上昇しました。」
こういった市況概況はよく目にするだろう。実はこの文章、文章生成AIが生成したものである。市況概況はアナリストがマーケットデータを基に市場分析し文章化するものであるが、上記文章自体には分析結果は含まれておらず、この後に肝心の分析結果が続くのである。淡々と定量的な事実(データ)を紹介している箇所の生成をAIに任せることができれば、アナリストは本業である要因分析や今後の見通し分析に、より注力することができるようになるだろう。

1.1. 市況概況とは

マネックス証券では、日経平均株価やダウ平均株価を始めとする国内外のマーケットデータを用いたオリジナル市況概況を毎営業日、朝夕2回作成している。朝(8時30分ごろ)にニューヨーク概況および東京市場見通し、夕(17時30分ごろ)に東京市場概況および個別銘柄概況について述べている。
市場の値動きの説明だけでなく、アナリストが独自に分析した定性情報も載っている。例えば、新型コロナウイルス感染症などの時事ニュースの市場影響や、注目すべき個別銘柄の動向などである。

1.2. 文章生成AIとは

文章生成AIは、当社が北京大学および株式会社天公システム※2と共同で開発※3した、ディープラーニング(深層学習)を利用したAIである。数値と文章をペアにして学習を行いAIモデルを生成し、実務適用時は数値を入力すれば適切な文章を出力できるようになる※4

1.3. 市況概況自動生成文章の紹介

文章生成AIは、アナリスト独自の分析までは代替できない※5。本試行では、比較的定量情報の多い概要、定量的な事実(データ)を最初に紹介している箇所を対象とした。
文章生成AIには過去のマーケットデータと、それに対応するアナリストが作成した過去の市況概況文章を与え、文章の書き方を学習させる。書き方を学習した文章生成AIは、マーケットデータのみ与えられると、自動で市況概況の概要箇所を生成することが可能になる(図1)。
図1 市況概況文章生成の流れ
図1 市況概況文章生成の流れ
出所:三菱総合研究所
図2が、実際に2019年1月7日にアナリストが作成した概要箇所の文章※6と、文章生成AIが自動生成した文章の比較である。
図2 市況概況文章比較
図2 市況概況文章比較
出所:三菱総合研究所
文章自動生成AIが生成した文章はシンプルで、定量的な事実を淡々と述べていることがよくわかる。一方で、日本語としては十分に自然であり、人間が書いた文章と見分けるのは難しい。
アナリストが生成した文章との大きな違いは下記のように分類できる。

①要因分析の有無
アナリストの生成した文章では、「先週末の米国市場はパウエルFRB議長が利上げなどの金融引き締め策を柔軟に見直す方針を表明したことが好感され」という時事情報を市場の値動きの要因として記載している。文章生成AIはこの時事情報がどのように市場の値動きに影響を与えているのかまでは分析できない。まさにアナリストが分析し、加えなければならない定性情報である。
さらに、アナリストは、「米国市場の大幅高を受け」という市場の値動き同士の関係性も記載している。米国市場のデータ自体は文章生成AIに与えられているが、常に米国市場の値動きが日経平均に影響を与えているわけではない。米国市場と日本市場の関係を分析した上で文章生成するのは現時点の文章生成AIには難しいと考えられる※7

②端数処理
アナリストが生成した文章では、「2万円の節目を回復」のように数字を丸めて記載している。文章生成AIは数字を正確に記載することは得意だが、“節目”を感じることはできない。人間からすると明らかな節目であるが、これは非常に人間的な感覚であるといえる。

1.4. モデル構築におけるポイント

正確かつ自然な文書生成にはモデル構築が果たす役割が大きい。以下に代表的なポイントを紹介する。

①定性箇所の削除
先ほど「文章生成AIは時事情報を要因とした文章は生成できない」と述べたが、実は学習時に時事情報をそのまま与えると、全く関係ない過去の時事情報を要因とした文章を生成してしまう。これはおそらく、その日の市場の値動きが、その時事情報が発生した過去日の値動きと似ていることが原因と考えられる。非常に自然な日本語で誤った時事情報を述べてしまうため、一歩間違うとフェイクニュースになってしまう可能性があり注意が必要である。
対処法としては、学習時に投入する市況概況文章から定性情報を手作業で削除するという方法を採った※8

②数値のタグ化
アナリストが生成した文章と文章生成AIが生成した文章をよく見比べると、数値の表記がところどころ異なることがわかる。アナリストは「2万38円」としているのに対し、文章生成AIでは「20038円」としている。
この差は、学習時に、「2万38円」ではなく、「本日の日経平均の終値」を示すタグに変換した上で書き方を学習させ、タグのまま生成した文章を実際の数値で置換しているために発生している。「2万38円」のまま学習させてしまうと、文章生成AIは「2万38円」という単語として認識してしまうが、その単語自体には意味はない。その意味、つまりここでは「本日の日経平均の終値」を認識させることが必要である※9

2. 業務適用に向けた課題

一見正しく見える文章であっても、実際の業務適用に向けてはまだ課題が残っている。今回の文章生成AIの試みを通じて、明らかになった課題を紹介したい。

2.1. 定性文章の扱い

繰り返し述べているが、文章生成AIは定性文章を生成することはできない。まさに人間が分析し作成する箇所であるため、必ずしも定性文章の生成を目指す必要はないが、課題は学習用データの整備である。
定性箇所を含めたまま学習を行ってしまうと誤った定性情報を生成してしまうため、定性箇所を取り除く必要がある。その作業は現時点では手作業で行うのが最も正確である。本試行ではデータ数が多くなかったため手作業で対応できたが、データ数が増えた場合の対応方法は今後の課題であるといえる。
一方で、文章生成AIが定性箇所をそのまま生成することはできなくても、人間による生成の補助を行える可能性は十分にある。例えば、【定性箇所】というタグをそのまま出力した上で、トピックなどを基に当該定量情報に関連しそうな時事情報の候補※10を出力し選択できるような仕組みがあれば、より効率的に定性箇所を人間が生成できるようになるだろう。

2.2. 正確性の担保

文章生成AIが生成した文章を評価することの難しさはこれまでの本コラムを通じて述べてきた。特に市況概況といったマーケットデータを基にした文章においては、分析の前提となる数値の正確性は何にも増して重要である。
本試行においても、数値の定量情報を極力タグ化するなどの対応を行ったが、100%正しい数値を生成するわけではなかった。機械的に生成文章の正確性をチェックするような仕組みを導入することも考えられるが、現時点では文章生成AIが生成した定量箇所においても人間が正確性をチェックしなければならない。
一方で人間が作成する文章においてもミスは起こり得るため、確認は必要である。正確性担保の業務負荷を客観的に比較し、効果を判断するのである。

2.3. 限定的な業務効率化効果

定性箇所は人間が生成しなくてはいけないこと、文章生成AIが生成した定量箇所も人間がチェックしないといけないことを踏まえると、業務効率化の業務効果は慎重に見積もる必要がある。特に本試行の対象とした市況概況は多くの人員で大量に作成するものではなく、少数の有識者が少数作成するものである。業務適用した場合でも業務効率化の効果は限定的であると考えられる。

3. 業務適用における期待

業務適用に向けて課題が残ってはいるものの、AIによる文章生成は最新の技術であり業務適用にはさまざまな可能性や効果が期待できる。
市況概況自動生成においては次のような効果を期待できるだろう。

3.1. 客観性の確保

文章生成AIは、与えられたデータから機械的に言及対象を選んで文章を生成する。すなわち、人間が不注意や特定のバイアスから見過ごしてしまう可能性のあるデータを正確かつ客観的にピックアップしてくれるのである。課題にて述べた通り正確性の担保は必要だが、例えば数値のコピーミスなどの単純な誤りは文章生成AIであれば起こらない。
主観的・恣意(しい)的なデータ抽出ではなく客観性を確保できることで、より要因分析などの定性部分の説得力が増すといえるだろう。

3.2. 定性情報の付加価値向上

本試行の結果から、いずれ定量情報の生成はAIによって代替される可能性は十分にあるといえるし、少なくとも定量情報の生成に割く時間を減らすことはできるだろう。その結果、本業である要因分析や今後の見通し分析などの定性情報生成に、より注力することが可能となる。人間にしかできない分析の付加価値は、より向上するだろう。

3.3. 分析範囲拡大

効率化の効果は限定的ではあるものの、一つひとつの文章生成負荷が下がれば、分析対象の指標を拡大することが可能になる。当社の独自研究によって、同様の経済分析の定量部分については100に満たないサンプル数でも日本語として自然な文章を生成可能であることがわかっている。例えば今まで参照していなかった経済指標についても、最初に数十個だけ学習用に人手で文章を作成すれば、文章生成AIがその書き方に倣った文章を生成することができる。文章生成AIをうまく利用することでより広範な経済指標についての分析が可能となるだろう。

4. 最後に

文章生成AIは人間の作業を代替するわけではない。文章生成AIをうまく使って業務の効率化・高度化を目指すことが重要である。
当社では、文章生成AIが働き方改革や人材不足などの社会課題に対する解決策の一つとなるよう、引き続き実用化に向けた試行やモデル高度化、サービス開発を行っていく。
謝辞
本試行においては、データや知見のご提供、評価の実施等、数多くの方々にご協力をいただき厚く御礼申し上げます。特にマネックス証券 兼子公範様、システム開発部の皆さま、プロダクト部の皆さま、商品業務部の皆さまに深く御礼を申し上げます。

※ 1:マネックス証券「市況概況の記事一覧」
https://media.monex.co.jp/category/gaikyo(閲覧日:2020年6月24日)

※ 2:天公システム
http://www.pkutech.co.jp/(閲覧日:2020年6月24日)

※ 3:当社ニュースリリース「数表から文章を自動作成するAI技術を北京大学と共同開発」(2019年5月27日)

※ 4:詳しくは前回のコラム参照

※ 5:詳しくは前回のコラム参照

※ 6:マネックス証券「市況概況東京市場まとめ」(2019年1月7日)
https://media.monex.co.jp/articles/-/10757(閲覧日:2020年6月24日)より一部抜粋し取得

※ 7:ただし、十分なデータ量があり米国市場の値動きと日本市場の値動きの関係が明確であれば、ほぼ定量情報と考えることもできる。その場合、自動生成できる可能性はあるといえる。

※ 8:「定量情報なのか定性情報なのかを判断するAI」を作ることも考えられるが、今回はデータ数が1,000に満たなかったため、手作業で削除した。

※ 9:文章生成AIがタグではなく数値を直接生成してしまった場合は、その数値が正しいかを慎重に確認しなくてはいけない。

※10:例えば“FRB”“日本銀行”といったワード(トピック)を保持する時事情報であれば、関連する時事情報の候補として出力する。当該時事情報が「どのように影響を持つか」までの判断はできないものの、「何らか影響しうる」という候補を出力することは可能である。

連載一覧

関連するナレッジ・コラム

関連するセミナー