コラム

MRIトレンドレビュー経営コンサルティング

ビッグデータの今:第2回:AI・機械学習を駆使して希少で価値あるデータを活用する

タグから探す

2016.6.13

先進データ経営事業本部寺邊正大

MRIトレンドレビュー

AI・機械学習による「データ活用」とは

第1回のコラムで紹介した囲碁AI(Alpha Go)が人間のトップ棋士に勝利した事例に代表されるように、AIやその推論エンジンをデータから構築する機械学習のテクノロジーは急速に進化している。交通分野の自動運転車、製造分野の生産や輸送の効率化・高度化、さらには金融分野でのフィンテックなど、あらゆる産業で先を競って、このテクノロジーの応用が進められている。

AI・機械学習によるデータ活用のフローは、図1のように大きく2つのパートに分かれる。機械学習によりデータ解析し、知識(モデル)を獲得するパートと、知識を用いてAIが推論を行い、意思決定を自動化または支援するパートだ。推論に基づき行動した結果、従来よりも効用が得られれば、AI・機械学習によるデータ活用が「成功」したといえる。成功のカギは、機械学習により事前にデータから精度のよい知識(モデル)を獲得することである。
図1 AI・機械学習によるデータ活用

図1 AI・機械学習によるデータ活用

“ビッグ”データであることは活用の必須条件か

AI・機械学習のテクノロジー進化の代表例が深層学習(ディープラーニング)だ。深層学習の原型である階層型ニューラルネットワークという手法は古くから利用されてきた。しかし、以前は高精度で多階層※1なモデルを学習するためには、膨大な計算量となることが課題であった。

近年の研究で従来課題の解決のブレークスルーとなる手法が提案されたことに加え、計算機の処理能力が向上したこと、大量の学習用データが準備できるようになったことなど、AI・機械学習の環境も整った。特に、画像認識や音声認識などの分野への応用が進み、従来手法に比べて格段に高い精度を出したことから、深層学習が注目を集めた。

深層学習の分野で有名なAndrew Ng(スタンフォード大/Baidu)は、深層学習をロケットに例え、「離陸(成功)するためには、燃料(データ)とエンジン(計算環境)が必要」と述べている※2。より多くの(「ビッグ」な)データを投入し、より高性能な計算機で処理をすれば学習精度を高められる、という意味だ。

十分な量、質のデータが準備できる分野では、今後AI・機械学習によるデータ活用が加速的に拡大するだろう。例えば、日々製造が行われ、各工程から多種多様なビッグデータが蓄積されている製造業の生産部門では、深層学習などAI・機械学習によるデータ活用が可能だ。

一方、同じ製造業でも、設計・開発部門、および保守・サービス部門はデータの蓄積状況が異なる。新製品の設計・開発では、過去事例の蓄積は多くないし、参考となる類似事例はさらに少ない。保守・サービスでは、実際に発生している異常事象は想定されている事象の一部で、かつ回数も数回程度というケースが一般的だ。機械学習に用いるデータとしては、“スモール”データである。

図2のように、製造業のグローバル化にともない、設計・開発や保守・サービスの部門は高付加価値化が期待されている。しかし、データの蓄積が十分でないスモールデータであることから、AI・機械学習によるデータ活用は遅れており、ベテランの「匠の技」に過度に依存している。
図2 製造業におけるスマイルカーブとAI・機械学習によるデータ活用

図2 製造業におけるスマイルカーブとAI・機械学習によるデータ活用
では、これらの”スモール”データしか準備できない問題では、AI・機械学習によるデータ活用は難しいのだろうか。答えはNoである。むしろ、希少な価値あるデータを活かしきることで、これまでに比べて大きな効用を得られる可能性がある。

希少なデータだからこそ「戦略的な取り組み」が必要

少ないデータでも、データ活用は可能である。ただし、一筋縄ではいかない。確かな知見に基づく「戦略的な取り組み」が必要だ。ポイントは以下の3点である。

ポイント① 目標の明確化

データ活用に取り組む前に「どのような知識を、どのような精度で獲得するのか」、という目標を明確にすることが大切だ。例えば、保守・サービスの異常予兆検出では、同じ事象を検出するのでも、なるべく早く、精度高く検出できるほど効果的・効率的に対策が打てる。まずは、現状分析に基づいて最初の目標を設定し、PDCAを行いながら次第に高度化することを目指すべきである。

ポイント② 既存知識の活用

データを用いてゼロから学習するのではなく、既存の知識を活用すべきである。「匠の技」を持つベテランの知識を引き出し(「知識の棚卸し」)、その知識を土台として機械学習を行うことにより、確実に、効率よく知識を獲得することができる。

ポイント③ 統計数理技術を駆使する

準備できるデータと目標を踏まえ、データの前処理を含め、適切な機械学習手法を選択、組み合わせて分析手順を構築することが重要である。一気に目標とする知識の獲得を目指すのではなく、まずは、探索的データ解析によりデータの特徴を理解し、データクレンジングを行い※3、その後、適切な機械学習手法により知識の獲得を行う、という段階を踏むことが、目標とする知識を得るための近道だ。

このような戦略的な取り組みを進めるためには、実施計画を策定する「企画力」、最新の技術に関する知見を有する「技術力」、データ解析を実践する「遂行力」が必要となる。

三菱総合研究所は、データの質・量や業務上の課題を分析した結果に基づき、個別に最適なアプローチを提案、実践することにより、お客さまのAI・機械学習によるデータ活用の実現に貢献しています。

※1:モデルの階層が深い(多い)ことから深層学習とよばれる。階層が多いほうが、学習によって複雑で精度が高いモデルが得られる。

※2:マイナビニュース, GTC 2015 - Baidu(百度)のDeep Learning,
http://news.mynavi.jp/articles/2015/04/08/gtc2015_baidu/

※3:データクレンジング:データに含まれる誤りや、欠損、重複などについて修正、削除することにより質を改善し、データ分析に適した状態にすること。

連載一覧

関連するナレッジ・コラム