グーグル社の新人工知能は失敗から学ぶ

  on
IBT150227  経験から学ぶコンピュータ

グーグル社傘下となったディープマインド社は、人間と同じように視覚データから学ぶコンピュータをプログラムするため、ディープラーニング(深層学習)の技術を応用している

DeepMind.com

グーグルがデザインした人工知能プログラムが、テレビゲームをプレーし、勝つことを自己学習した。1980年代のアタリ社(初のテレビゲームを開発)のいくつかのゲームでは、人間より強かったほどだ。「ディープラーニング(深層学習)」の分野を大きく進める形で、発展は続いている。「ディープラーニング」の目的は、様々な難しいタスクをこなせるマシンを製作することだ。

かつてコンピュータは人間を負かすほどに複雑なゲームをマスターしてきたが(IBM社のコンピュータ「ディープブルー」が1997年、当時チェスの世界王者だったガルリ・カスパロフ(Garry Kasparov)に勝ったのは有名だ)、この進化で特筆すべきは、初めてシステムが実際に経験から学び、リアルタイムで未経験の展開にそれを応用したということだ。グーグル社のディープマインド部の開発者らが「ディープQネットワーク(DQN)と名付けたこのプログラムは、人間がしているように、タスクをゼロから始めた後、試行錯誤から学ぶことに成功した最初のコンピュータ・プログラムだ。

DQNは、指示をほぼ与えられない状態で、「ブレイクアウト」、「ピンボール」、「スペースインベーダ」、「ポン」など、49の異なるアタリ社のテレビゲームを与えられた。何度かプレーするうち、29のゲームについてはプログラムが人間を上回るパフォーマンスを上げ、ピンボールなどいくつかのゲームでは、人間が試したことのない動きを使って26倍もよい成績を上げることを研究者らは発見した。

「われわれがシステムに与えた情報は、画面上の生のピクセルと、高いスコアを上げなければならないということだけでした。他のことはすべて、システム自身で判断しなくてはならなかったのです」とディープマインドの副長デミス・ハサビス(Demis Hassabis)氏は語っている。

生ピクセルの配列が何を意味するのかの予備知識のないコンピュータにとって、こうしたゲームから受け取るデータは意味のないものだ。しかし、DQNは、こうしたピクセルの形や大きさ、色や配列を直観的に分析し、自分が見ているものを実質的に理解するという。

「こうしたゲームは80年代からあるものだし、解き方も容易に書くことが出来るという意味では、一見些細なことに見えます。些細なことでないのは、ピクセルから、知覚的入力として、何をすべきか学ぶことのできる単体のシステムができたということなのです」とハサビス氏は言った。

さらに、このプログラムは自分が前に行ってよいスコアにつながった行動を分析したり、失敗から学んだりする能力も持っている。しかし、「パックマン」や「モンテズマの復讐」といった事前の計画がある程度必要なゲームとなると、DQNは人間にはかなわなかった。

「今、工場や高齢者介護ロボット、家庭用掃除ロボットなどで発展の障害となっているのは、こうしたマシンが実現した場合、予期せぬことに対応しなくてはならないということです。起こりうることのすべてを事前にプログラムしておくことはできません」とハサビス氏は語り、次のステップはさらに複雑なデータでDQNをテストすることだという。

「究極的には、レーシングゲームで車を運転できれば、いくつか微調整すれば本物の車を運転できるということです」とハサビス氏は付け加えた。 このプログラムはそのうちに、事前に地図を入力しなくても運転を学ぶ能力のある、グーグルの自動操縦車に利用されるかもしれない。しかし、周囲に十分な注意を払えるそんなシステムができるのはまだまだ先になるだろう。

*この記事は、米国版International Business Timesの記事を日本向けに抄訳したものです(原文:Avaneesh Pandey記者「Google Creates Artificial Intelligence Program Smart Enough To Learn From Its Mistakes」)。