2017.02.14

人工知能はゲームに負けそうになると「凶暴」になる：研究結果

DeepMindが、さまざまな社会的状況において人工知能がどのように行動するのかを研究するために、2種類のゲームでテストを行った。その結果、AIは報酬をより多く得るために、攻撃的になったり協力的になったりすることがわかった。

人工知能（AI）がさまざまな「社会的状況」に対してどのように行動するのかをテストしたところ、その行動は人間のそれによく似ていたという調査結果を、DeepMind（ディープマインド）のコンピューター科学者たちが発表した。

ディープマインドはグーグル傘下のAI企業で、トップ棋士を破った囲碁AI（日本語版記事）で有名なほか、ゲーム攻略法を編み出したAI（日本語版記事）の開発など、多くの研究成果を発表している。今回の研究で、彼らはAIがさまざまな社会的状況に対してどのように行動するのかを、ゲーム理論や社会科学的な知見を使って調べた。

最新の研究では、2種類のゲームを使ってテストが行われた。リンゴを集めるゲームと、オオカミの群れが狩りをするゲームだ。どちらもシンプルな2Dのゲームである。

リンゴを集めるゲーム。

リンゴを集めるゲーム『Gathering』では、研究チームは深層強化学習を使って、緑色のピクセルで表示された「リンゴ」を集めるようにシステムを訓練した。プレイヤー（AI）がリンゴを1個獲得すると報酬が与えられ、リンゴはゲームのマップ上から消える。

対戦相手に勝つためにプレイヤーは「ビーム」を発射することも可能で、2回撃たれたプレイヤーは一定時間ゲームに参加できなくなる。敵をゲームから追い出すことで、リンゴを独り占めにできるわけだ。

「直感的に考えれば、このゲームの『離脱ルール』は攻撃的な行動を誘発します。AIはライヴァルを認識し、彼らをゲームから排除しようとするのです」と論文では述べられている。

研究チームは、リンゴの数に応じてAIがどう行動するのかを調べることにした。ゲームが進み、行動にかかるコストに対して残りのリソース（リンゴ）が少なくなると、AIは「非常に攻撃的」な手法を学習することがわかった。「こうした貪欲な行動は、ライヴァルを排除して、リンゴを独り占めにしたいという衝動を示しています」。一方で、「残りのリンゴが多い状況では、攻撃性の低い手法がとられます」と論文では述べられている。

オオカミのチームとなって狩りをするゲーム。

2つ目のゲーム『Wolfpack』は、オオカミのチームが狩りをする内容で、2体のプレイヤーがオオカミとなって獲物を追い回す。獲物を捕まえたとき、両方のプレイヤーがその近くにいた場合は両者に報酬が与えられる。

「オオカミは1匹でも獲物を仕留めることができますが、その場合、獲物の死骸をスカヴェンジャー（腐肉食動物）に横取りされるリスクが高まります」と論文では説明されている。つまり、2匹のオオカミが協力することで、獲物をスカヴェンジャーから守り、報酬を増やせる可能性が上がるということだ。

リンゴを集めるゲームと同様に、AIはこのゲームでも、時間が経つほど異なる行動をとるようになった。今度はより協力的になり、仲間を見つけて一緒に狩りをするか、あるいは獲物を追いつめながら仲間が来るのを待つようになったという。

研究チームは今後、プレイヤーの数を増やしたり、もっと複雑な環境を設定するなどして研究を続けるという。彼らは最終的に、現実社会の問題をAIに解かせることで、解決策を見つけることを目指している。

人工知能の暴走を防ぐ「非常停止ボタン」はつくれるか

TEXT BY MATT BURGESS

TRANSLATION BY HIROKI SAKAMOTO, HIROKO GOHARA/GALILEO