Unity を検索

Unity ML-Agents ツールキット v0.4 と Udacity の深層強化学習のナノ学位

2018年6月18日 カテゴリ: テクノロジー | 4 分 で読めます
取り上げているトピック
シェア

ML-Agents ツールキットの最新版、v0.4 が公開されました。このキットには数多くの機能が含まれており、きっと皆様に喜んでいただけると思います。

このキットには、ビルドされた実行ファイルによってではなくエディターから直接環境のトレーニングを行えるオプションが搭載されています。これにより、イテレーション時間が大幅に短縮されます。また、難易度の高い新しい環境のセットが公開されたほか、アルゴリズムの改良により、これまでエージェントにとって非常に困難(場合によってはまったく不可能)だったタスク解決の学習がより行いやすくなっています。新バージョンは GitHub のリリースページからご入手いただけます。さらに嬉しいお知らせとして、Udacity と提携して提供されるオンライン学習プログラム『Deep Reinforcement Learning Nanodegree』の提供も開始されます。最新版 ML-Agents ツールキットについて詳しく知りたい方は、以下の本文を引き続きお読みください。

環境

最新のリリースには 2 つの新しい環境、『Walker』と『Pyramids』が含まれています。『Walker』は物理ベースのヒューマノイドのラグドール、『Pyramids』は複雑で報酬の疎な環境となっています。

Walker

このコンテンツはサードパーティのプロバイダーによってホストされており、Targeting Cookiesを使用することに同意しない限り動画の視聴が許可されません。これらのプロバイダーの動画の視聴を希望する場合は、Targeting Cookiesのクッキーの設定をオンにしてください。

キットに含まれる新しいサンプル環境の 1 つ目は『Walker』です。これにはヒューマノイド・ラグドールのエージェントが含まれています。このラグドールは完全に物理ベースで、エージェントが手足を制御して前方に歩けるように、学習させることが目的です。学習の結果、ラグドールはちょっと面白い動きをするようになっています。エージェントの体は多自由度となっているので、確かなベンチマークとして強化学習アルゴリズムの研究開発に貢献し得るものと考えています。

Pyramids

このコンテンツはサードパーティのプロバイダーによってホストされており、Targeting Cookiesを使用することに同意しない限り動画の視聴が許可されません。これらのプロバイダーの動画の視聴を希望する場合は、Targeting Cookiesのクッキーの設定をオンにしてください。

2 つ目の環境は『Pyramids』です。Unity ではお馴染みの、青いキューブのエージェントの再登場です。今回のエージェントは、バナナを集めたり壁を飛び越えたりする代わりに、複数のブロックで出来たピラミッドの頂点にある黄金のブロックを目指します。ただし、黄金のブロックが載ったピラミッドは、ランダムに配置されたスイッチがアクティベートされないと出現しません。エージェントは黄金のブロックに到達した時にのみプラスの報酬を得られるようになっているので、報酬が非常に疎な環境であると言えます。

環境バリエーションの追加

上記の他に、既存のサンプル環境に Visual Observation(視覚的観測情報)をベースにしたバージョンと模倣学習をベースにしたバージョンが追加されました。特に Visual Observation のある環境は、畳み込みニューラルネットワーク(CNN)を使用したニューラルネットワークモデルのベンチマークを行いたい研究者のためのチャレンジ環境として設計されたものです。

提供されているサンプル環境に関する詳細は、こちらのリンクをご参照ください

Curiosity(好奇心)による学習能力の向上

エージェントが報酬の疎なタスクを解決するためのサポートとして、PPO アルゴリズムに任意選択可能な増強も追加しました。この増強は、昨年公開されたこちらの研究論文で説明されている Intrinsic Curiosity Module(内発的好奇心モジュール)の実装です。基本的にこの追加要素は、エージェントが(自身の行動が目新しい結果をもたらしたかに応じて)内発的報酬信号を使用して自らに報酬を与えられるようにするものです。これによりエージェントは、(上述の『Pyramid』などの)報酬が非常に疎な環境を、より簡単・短時間で解決できるようになります。

エディター内でのトレーニング

ML-Agents ツールキットの発表以来、寄せられていた要望のひとつが、Unity エディター上でトレーニングを行う機能の追加です。今回のリリースでは、その実現に向けた第一歩を記すことができました。今バージョンからは単純に「learn.py」スクリプトを起動してエディター内の「再生」ボタンを押すだけでトレーニングが行えます。つまり、実行ファイルをビルドしなくてもトレーニングが行えるので、より素早いイテレーションが可能となります。ユーザーの皆様にとっては大幅な時間の節約になり、従来のゲーム開発ワークフローと ML-Agents のトレーニングのプロセスが、シームレスに融合されます。これは Unity の通信システムの改良によって実現されました。しかし、デベロッパーのワークフローの改良はこれだけにとどまりません。2018 年のリリースサイクルを通して、Unity エディターへのさらに密接な統合が進められる予定となっており、今回はその第一歩に過ぎません。

TensorFlowSharp のアップグレード

最後に、TensorFlowSharp プラグインが 1.4 から 1.7.1 にアップグレードされました。今後は最新版に近いバージョンの TensorFlow でビルドされたモデルを ML-Agents ツールキットで使用できるので、トレーニングするモデルと Unity プロジェクト内に埋め込めるモデルとの間で互換性を維持することができます。また、ML-Agents ツールキットを利用する Android および iOS 実行ファイルの作成に関するドキュメンテーションにも改良を加えました。このドキュメンテーションはこちらでご確認いただけます。

Udacity の深層強化学習ナノ学位

Udacity との提携により、強化学習への理解を深めたい学生やユーザーコミュニティの皆様のために、新しくナノ学位の提供が実現されました。この Udacity コースでは、様々な概念の理解を助ける手段として ML-Agents ツールキットを使用します。すでに ML-Agents ツールキットをお使いの方で、強化学習の背後にある数学やアルゴリズムや理論を学びたい方はぜひサインアップしてください。

このコンテンツはサードパーティのプロバイダーによってホストされており、Targeting Cookiesを使用することに同意しない限り動画の視聴が許可されません。これらのプロバイダーの動画の視聴を希望する場合は、Targeting Cookiesのクッキーの設定をオンにしてください。

フィードバック

上記でご紹介した内容に加え、PPO のパフォーマンス改善、いくつかのバグ修正、また ML-Agents コードベースによって提供されるテストの質の向上も行いました。今回も皆様のフィードバックをお待ちしております。GitHub の「Issues」のページにご投稿いただくか、直接(ml-agents@unity3d.com)にメールをお送りください。

2018年6月18日 カテゴリ: テクノロジー | 4 分 で読めます
取り上げているトピック