GOOGLE人工知能「ALPHA GO ZERO」は学習方法のリセットを押しただけ

どうやって歩いたり、話したり、自転車に乗ったり、運転したりすることを（漠然と）覚えていますか？めちゃくちゃで間違いだらけでしたが、そのようにして学んだスキルは残りました。生体システム以外では、「実生活の経験」を取り入れ、人工知能のための粘着性と適応性のある行動を開発するのに十分強力なアルゴリズムを構築することは困難でした.

さて、Alpha Go Zero はそれをやっただけです。

それは空白の状態から始まり、それは自分自身のためにのみ、自己遊びからのみ、そして人間の知識、人間のデータ、特徴、例、または人間の介入なしに、それ自身だけを見つけ出す.最初の原則から囲碁のゲームをプレイする方法を発見します」と、DeepMind の教授である David Silver は言います。

AI にはいくつかのイテレーションがあり、それぞれが以前のものよりも賢く、能力が向上しています。以前のバージョンでは、過去のゲームの巨大なデータベースと、勝利に向けてそれを示す一連のアルゴリズムを使用していました。そのアプローチは、現世界チャンピオンのプロ棋士の敗北につながりました。ポーカーでは、AI Libratus は最近、人間のゲームデータの代わりにセルフプレイを通じて学習することで、世界のトップポーカープレーヤーのスキンを 200 万ドル近く減らしました。

さて、このAlpha Goの最新バージョンでは、人工知能プログラムが教えました自体囲碁の遊び方 -- 人間のバックグラウンドなしで。

何百万ものゲームシミュレーションを自分自身に対して実行し、それ自身の世界チャンピオンバージョンを打ち負かす方法をゼロから学ぶのに 40 日かかりました。これは、Go だけでなく、新しい知識がどのように発見されるかについても、まさにゲームの流れを変えるものです。あなたのドメインの専門知識はどの程度正確または完全ですか?あります たくさん Alpha Go Zero を使って学習するこの魅力的な実験が教えてくれることは、他にもあります。

「Alpha Go のアイデアは、外に出て人間を打ち負かすことではなく、実際に科学を行うことの意味を発見することです。つまり、プログラムが知識とは何かをそれ自体から学ぶことができるようにするためです」とシルバーは YouTube への投稿で述べています。達成。

アルファゴーゼロディープマインドチームは、それを第一原理、「タブララーサ」 (空白のスレート) 学習と呼んでいます。

'達成できれば 純真無垢 学習すると、囲碁のゲームから他のドメインに移植できるエージェントがあり、現在参加しているゲームの詳細から、どこにでも適用できる非常に一般的なアルゴリズムを思いつくのです」と彼は言います。 .概念を拡張すると、それは挑発的なアイデアです。難しい問題に体系的に取り組み、文明の集合的な知識よりも速く学習できる一連の強力な学習アルゴリズムで何ができるかを考えてみてください。 . .数十年ではなく、数日で。

今のところ、重要なことは、「アルゴリズムは、コンピューティングや利用可能なデータよりもはるかに重要です」とシルバー氏は述べています。これだけでも、既知の世界の拡張へのアプローチ方法を大きく変えることができます。 Alpha Go は約 2,500 万ドルのハードウェアで実行されますが、これは厳密には軽量のシステムではありませんが、AI の専門家は長い間、よりクリーンで優れたデータセットの作成に取り組んできました。今日、多くのビッグデータセットは、人工知能を正確にトレーニングするにはノイズが多すぎる (悪いデータでいっぱい) と考えられています。 AI がデータから学習していて、データが悪い場合は学習しません。大問題。

クリーンなデータが必要ではなく、経験だけが必要で、人工知能が自らを訓練できるとしたらどうでしょうか?

これは Alpha Go Zero のエキサイティングな成果です。ルールに基づいたニッチなゲームの世界ではありますが、化学、交通、生物学、薬理学、旅行、物流、製造など、物理的なルールに基づいて働くすべての業界に大きな影響を及ぼします。ルールを非常に柔軟に設計し、幅広い経験から機能し、常により強力なスキル (Alpha Go Zero のようなもの) を生み出す方向性を持つことができれば、システムを支配する人工知能を実現することができます。これらのシステムは外部データを必要とせず、データクレンジングの問題もなければ、ヒューマンインザループのスローダウンも必要ありません。グーグルの親会社であるアルファベットが人工知能に賭け、急速に人工知能に投資しているのもそのためだ. (Amazon は、最新の AI 買収 BodyLabs のように、人工知能にも投資しています。)

DeepMindの教授であるDavid Silverは、「プログラムが高いレベルのパフォーマンスを達成するのを見たという事実は、人類にとって最も困難で影響力のある問題のいくつかに取り組み始めることができることを意味するはずです.」と述べています.

この投稿は更新され、AI Libratus が最近、人間が入力したデータではなくセルフプレイを含む戦略を使用してトップポーカープレーヤーを打ち負かしたことを明らかにしました。