コラム

MRIトレンドレビューデジタルトランスフォーメーション

実用化が始まる文章生成AI　第1回：文章読解（BERT以降）と文章生成技術

サービス分野から探す

タグから探す

トレンド

目的

業種

2020.5.8

AIイノベーション推進室高橋怜士

ディープラーニング（深層学習）は画像認識で圧倒的な性能を発揮し、以後、さまざまな分野で活用されている。人間が日常で行っている文章の読み書きを機械的に行う自然言語処理技術でもディープラーニングが活用されている。本コラムでは、自然言語処理技術のうち、ディープラーニングを活用した文章読解技術と文章生成技術の現状を紹介する。

文章読解技術の急速な発展

Googleが2018年に発表したBERTはディープラーニングを活用した文章読解技術の一つで、事前学習を効果的に利用し、文章の意味を理解するタスク^※1で特に高い性能を示した。BERTにおける事前学習は特定のタスクに特化したデータは用いず一般的な文章データを用いて行われる。その結果できたAIモデルは複数のタスクに対して有効性が確認されている。つまり、別種のタスクに対して同じモデルが有効であり、BERTは言語に対する一般的な知識を学習しているように見える。こうしたBERTの登場が近年の自然言語処理の急速な発展のきっかけとなり、主として米中の企業・大学がその改良を重ね、一部のタスクでは人間を超える性能を達成している。

自然言語処理技術を開発する多くの企業がベンチマークとして用いるタスクにGLUE^※2とSuperGLUE^※3がある（詳細は参考資料に記載）。GLUE、SuperGLUEともに文章読み取り能力を測るように設計され、数年前の基準であれば難しいタスクが並ぶ。例えば「The sun was covered by a thick cloud all morning, but luckily, by the time the picnic started, it was out.」の it は「The sun」であるが、「The sun was covered by a thick cloud all morning, but luckily, by the time the picnic started, it was gone.」の it は「The sun」ではない（「The cloud」である）という判定をしなければならない^※4。
SuperGLUEはBERTなどによりGLUEのスコアが向上したために開発されたものであり、より難しいタスクが選ばれている。

GLUEが発表されたのは2018年4月で、その著者らが構築したAIのスコアは70.0点、人間のスコアは87.1点であった。その後、AIが人間のスコアを超えたのは2019年6月である。AIの進歩を踏まえ、より難しく設計されたSuperGLUEが2019年5月に発表された。その著者らが構築したAIのスコアは71.5点、人間のスコアは89.8点であった。2020年1月時点のAIの最高点数は89.3点であり人間に迫っている。
1カ月単位で大きな成果が出ていることからもわかる通り、文章読解技術は極めて速いスピードで発展している^{※5 ※6}。

2020年1月時点で人間のGLUEスコアを超えているAIモデルはGoogleのT5、BaiduのENRIE、MicrosoftのMT-DNN-SMARTなど8モデル存在する。SuperGLUEに対し総合得点で人間のスコアを超えたモデルは存在していないが、T5は一部のタスクで人間のスコアを超えている。AIが人間並みの文章読解能力を有する時代は迫っていると考えてよいだろう。

当社でもAIによる読解技術を開発しており、「インターネットの検索結果から欲しい情報を自動的に抽出するAI機能を開発」したことはその成果の1つである。

文章生成技術の概要と現状

このように自然言語処理技術、特に文章読解分野は急速に発展している。しかしながら、文章生成は生成した文章の評価の難しさもあり依然困難なタスクである。以降、当社が扱う文章生成の典型的なタスク「数表からその説明を行う文章を生成する」（図1）を例に文章生成の手法を説明したい。

図1　文章生成の手法：数表からその説明を行う文章を生成する

出所：三菱総合研究所

文章以外のデータから文章を生成する技術には「テンプレート方式」と「言語モデル方式」の2つの方法がある。

テンプレート方式では穴埋めを行うためのテンプレートを事前に用意しておき、その穴埋めを行うことで文章を生成する方法である。文章のパターンが多い場合は、適切なテンプレートを選ぶモデルを構築することもある。文章生成を行う場合、最初に検討される標準的な方法といってよい。

図2　テンプレート方式

出所：三菱総合研究所

言語モデル方式ではテンプレートを用いず文章生成に言語モデルを活用する。具体的にはデータと文章のペアを元に深層学習など利用してデータから直接文章を生成するモデルを作成する。正しいモデルを作成できれば、データを与えることで直接文章が得られる。

図3　言語モデル方式

出所：三菱総合研究所

「テンプレート方式」は日本語としての間違いが起きにくいという利点がある。一方でテンプレートを作る負荷が高いのが欠点となる。多様な表現を行うためにはテンプレートを増やす必要があり、そのメンテナンスも容易ではない。

「言語モデル方式」はテンプレートが不要で手軽に試すことが可能であり、多様な表現の文章を生成できる。近年の自然言語処理技術の発展に伴い、文法や文脈を踏まえた人間に近い自然な文章を生成することが可能となってきている。一方で、表現が多様であり、生成した文章の正確性を保証することは簡単ではない。また、自然で正確な日本語を生成するためには相応のデータが必要である。

当社の経験上、「テンプレート方式」「言語モデル方式」ともに生成した文章を正しく評価することは難しい。評価の観点には

生成された文章が日本語として自然か
生成された文章が正しいか
生成された文章のロジックがあっているか

などがあり、これらを機械的に評価することは簡単ではない。多くの場合、機械的な評価は人の評価と一致しないため、モデル改善の過程で人による評価を繰り返す必要がある。

文章生成技術への期待

現時点で実運用されている文章生成技術の多くはテンプレート方式で実現されており、データ分析結果にコメントを付与する、決算短信からニュース速報を作成するなど「定型的だが、大量の文章を書く」仕事に使用されている。

言語モデル方式はテンプレートが不要なため、より幅広い場所での応用が期待できる。また、良い文章を何らかの方法で評価できれば、評価が高くなる文章を生成するよう学習させることも可能である。自然言語生成技術と売上データを併用することで、より売れるキャッチコピーを生成し、顧客の属性を考慮し興味に沿った説明文章を生成するなど、テンプレート方式では実現の難しいタスクを解ける可能性もある。

現状では、技術面や評価面の難しさなどさまざまな理由から、言語モデル方式の実運用に至っている例は希少であろう。以降のコラムでは言語モデル方式の実務適用を目指し、当社が取り組んだ事例を紹介する。

参考資料

GLUEのタスク

Alex Wang et al., “GLUE:A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, In the Proceedings of ICLR, 2019 より三菱総合研究所作成
https://openreview.net/pdf?id=rJ4km2R5t7 （閲覧日：2020年1月21日）

SuperGLUEのタスク

Alex Wang et al., “SuperGLUE: A Stickier Benchmark for
General-Purpose Language Understanding Systems”, arXiv preprint 1905.00537, 2019 より三菱総合研究所作成
https://arxiv.org/pdf/1905.00537.pdf （閲覧日：2020年1月21日）

※1：AIが解く典型的な問題のこと。具体的には「AIが文章を翻訳するMachine Translation」、「AIが質問に答えるQuestion Answering」などがある。

※2：https://gluebenchmark.com/（閲覧日：2020年1月21日）

※3：https://super.gluebenchmark.com/（閲覧日：2020年1月21日）

※4：「」内はSuperGLUEのWSC（https://super.gluebenchmark.com/tasks）のWSCデータセットより引用した（閲覧日：2020年1月21日）。GLUEのWNLIにも同じデータが存在するが、最初の文章に「The cloud was gone」という意味が含まれるか否かを判定する問題となっている（「」内はhttps://gluebenchmark.com/tasksのWinograd NLIデータセットより引用（閲覧日：2020年1月21日））。

※5：https://gluebenchmark.com/leaderboard（閲覧日：2020年1月21日）

※6：https://super.gluebenchmark.com/leaderboard（閲覧日：2020年1月21日）

MRIトレンドレビュー