■「ファスト&スロー」

 研究チームはエージェントの学習にいわゆる「強化学習(RL)」を用いた。エージェントは旗を奪うと報酬が得られることを教えられるが、研究チームは強化学習の可能性をさらに広げる革新的方法を考案した。

「各エージェントが自身の内部報酬信号を学習したことが今回の研究結果の成果の一つだ」とジェイダーバーグ氏は指摘する。これは、旗を奪ったり、相手を撃ったりといったさまざまなタスクを達成すると、AIプレーヤーはその重要度に応じて自身に報酬を与えるということを意味する。

 研究チームはまた、エージェントを個別に訓練するよりも、まとめて訓練した方がチーム全体としてはるかに速く学習できることも発見した。

 さらに「二つの時間スケール」学習と呼ぶ新たな構造も考案した。ジェイダーバーグ氏はこれをダニエル・カーネマン(Daniel Kahneman)の著作「ファスト&スロー(Thinking Fast and Slow)」に例えている。

「素早く考えて素早く考えを更新するエージェントと、ゆっくり考えてゆっくり考えを更新するエージェントに分けると、2種類の考えが互いに影響し合い、エージェントが世界について学習する方法を構築する手助けとなる」とジェイダーバーグ氏は説明した。

 対戦ごとに地図の配置を無作為に変えることも重要だったという。論文の共同執筆者ボイチェフ・チャルネッキ(Wojciech Czarnecki)氏は「エージェントが見つける解決法は一般的でなければならず、一連の行動を記憶するだけではだめだということだ」と語った。

■倫理的問題

 研究チームは今回、AIが将来的に軍事利用される可能性についてはコメントしていない。

 ディープマインドは過去に、いかなる軍事または監視プロジェクトにも決して関与しないと明言している。今回の論文でも「撃つ(shoot)」という言葉は一度も使われていない(このような行為についてはレーザー装置を向けて、相手をとらえると言い換えている)。

 ジェイダーバーグ氏は今後について、AIエージェントにクエイクIIIアリーナの完全版をプレーさせるとどうなるかを探ったり、ゲーム以外の分野でAIが問題解決に取り組める方法を見つけたりしたいと述べている。

「立案、戦略、記憶といった一般的な概念を探るための困難な環境としてキャプチャー・ザ・フラッグのようなゲームを用いている。これらの概念は、現実世界の問題解決に使われるアルゴリズムを開発する上で欠かせないと私たちは考えている」 (c)AFP/Issam AHMED