AIは私たちの社会に溶け込んだ。顔認証でスマホのロックを解除し、スマートスピーカーに話しかけ、オススメの音楽を聴くことは日常となった。便利になった半面、AIの安全性や倫理問題を懸念する声もよく聞かれるようになった。だが、将来の技術革新への期待を考えれば、過度の規制は望ましくない。その上で、目に見えるリスクに対しては、先んじて手を打っておきたいところだ。
AIセキュリティの研究者たちは、今ここにある脅威として、機械学習で訓練されたAIが人間にだまされてしまい、予期せぬ被害が生じる可能性を指摘している。Googleの研究チームは、「機械学習に対する敵対的サンプル」と呼ばれる研究についてレポートを2014年に公表した。この研究では、パンダの画像に対して、人間の目では違いに気付かない程度の軽微なノイズを合成することで、画像識別AIに「これはテナガザル(gibbon)である」と間違った判定をさせることに成功している※1。
機械学習は、膨大なデータから法則性を見いだすことで、従来のルールベース(人為的に記述されたルールに従って動作する仕様)による条件分岐では表現しきれないような複雑な推論を可能とした。機械学習に固有の脆弱性もまさにこの点に由来する。通常の教師あり学習では、教師データの学習を通じてAIの判断根拠を調整し、最適化していく。前出のノイズが含まれたパンダの画像のような敵対的サンプルを学習する過程においては、逆にAIの判断根拠は固定したままデータへの加工を最適化していくことで、通常であればほとんど気づくことがないレベルに加工した画像で、間違った答えを探し出すことができる。
決してデジタルデータの世界に閉じた脅威ではない。現実世界の物理的対象での実践例として、道路標識に小さなステッカーを貼り付けることで、特定の自動運転車に停止標識を無視させる実験も成功している。近年では、画像識別のみならず、音声識別や自然言語処理でも同様の脆弱性が確認された。近い将来において、例えば与信評価に用いられるAIなどを相手に、不当に高いスコアを人知れず獲得するような悪意への対処も考えなければならないだろう。
敵対的サンプル以外にも注意すべき手口は複数ある。しかし幸いなことに、これらの悪用手法に耐性をもつAIを訓練するための学習手法の研究も進んでいる。敵対的機械学習と呼ばれる手法では、敵対的サンプルに対するひっかけ問題などを、あらかじめ学習させておくことで、だまされる可能性を下げる効果を得ている。不特定多数からの入力を受け付けるようなAIでは、特にこうした対策の実施が望まれる。
しかし、個人の判断基準に差があるように、AIにはAI独自の判断基準がある。人間と異なる判断をAIが下す可能性をゼロにすることは本質的に不可能だ。だまされないようにAI自体を訓練するという直接的な手段以外にも、多角的な防御を講ずることが重要になってくる。
例えば、AIから必要以上の結果を出力せずに内部情報を秘匿したり、AIへの問い合わせ回数に上限を設けたりする手段により、攻撃のてがかりを与えないようにする方法がある。また、入力データをAIへ渡す前に一度フィルターを通すことで不正な要素を除去したり、複数のAIによる判断を重ね合わせて、より堅実な判断を行わせたりするといった、さまざまな防御策を実装することが求められる。前述した自動運転車への攻撃リスクに対しても、地図情報などをもとにした判断を組み合わせるアプローチは有効な対処となる。
AIはだまされることがある。この事実を受け入れながら、私たちは、AIを守り、育て、上手に付き合っていく必要がある。
AIセキュリティの研究者たちは、今ここにある脅威として、機械学習で訓練されたAIが人間にだまされてしまい、予期せぬ被害が生じる可能性を指摘している。Googleの研究チームは、「機械学習に対する敵対的サンプル」と呼ばれる研究についてレポートを2014年に公表した。この研究では、パンダの画像に対して、人間の目では違いに気付かない程度の軽微なノイズを合成することで、画像識別AIに「これはテナガザル(gibbon)である」と間違った判定をさせることに成功している※1。
機械学習は、膨大なデータから法則性を見いだすことで、従来のルールベース(人為的に記述されたルールに従って動作する仕様)による条件分岐では表現しきれないような複雑な推論を可能とした。機械学習に固有の脆弱性もまさにこの点に由来する。通常の教師あり学習では、教師データの学習を通じてAIの判断根拠を調整し、最適化していく。前出のノイズが含まれたパンダの画像のような敵対的サンプルを学習する過程においては、逆にAIの判断根拠は固定したままデータへの加工を最適化していくことで、通常であればほとんど気づくことがないレベルに加工した画像で、間違った答えを探し出すことができる。
決してデジタルデータの世界に閉じた脅威ではない。現実世界の物理的対象での実践例として、道路標識に小さなステッカーを貼り付けることで、特定の自動運転車に停止標識を無視させる実験も成功している。近年では、画像識別のみならず、音声識別や自然言語処理でも同様の脆弱性が確認された。近い将来において、例えば与信評価に用いられるAIなどを相手に、不当に高いスコアを人知れず獲得するような悪意への対処も考えなければならないだろう。
敵対的サンプル以外にも注意すべき手口は複数ある。しかし幸いなことに、これらの悪用手法に耐性をもつAIを訓練するための学習手法の研究も進んでいる。敵対的機械学習と呼ばれる手法では、敵対的サンプルに対するひっかけ問題などを、あらかじめ学習させておくことで、だまされる可能性を下げる効果を得ている。不特定多数からの入力を受け付けるようなAIでは、特にこうした対策の実施が望まれる。
しかし、個人の判断基準に差があるように、AIにはAI独自の判断基準がある。人間と異なる判断をAIが下す可能性をゼロにすることは本質的に不可能だ。だまされないようにAI自体を訓練するという直接的な手段以外にも、多角的な防御を講ずることが重要になってくる。
例えば、AIから必要以上の結果を出力せずに内部情報を秘匿したり、AIへの問い合わせ回数に上限を設けたりする手段により、攻撃のてがかりを与えないようにする方法がある。また、入力データをAIへ渡す前に一度フィルターを通すことで不正な要素を除去したり、複数のAIによる判断を重ね合わせて、より堅実な判断を行わせたりするといった、さまざまな防御策を実装することが求められる。前述した自動運転車への攻撃リスクに対しても、地図情報などをもとにした判断を組み合わせるアプローチは有効な対処となる。
AIはだまされることがある。この事実を受け入れながら、私たちは、AIを守り、育て、上手に付き合っていく必要がある。
※1:OpenAI, “Attacking Machine Learning with Adversarial Examples”,
https://openai.com/blog/adversarial-example-research/ (閲覧日:2020年8月6日)