この Q&A では、長年の Unity ユーザーである Gerard Espona 氏の視点から、人工知能(AI)とコンピュータービジョンの未来を垣間見てみましょう。彼のロボットデジタルツインプロジェクトは、Made with Unity: AI シリーズで紹介されています。Luxonis 社でシミュレーションのリーダーを務める Espona 氏は、同社のコア技術によって人間レベルの知覚をロボティクスに組み込むことを可能にし、業界における長年の経験を活かしてコンピュータビジョンの現状と予想される進歩について考察しています。
近年、コンピュータービジョン(CV)と AI は、市場規模、業界への導入率ともに急成長している分野です。空間 CV やエッジ AI は、複雑なプロセスだけでなく、繰り返し行われる作業の改善や自動化にも利用されています。
この新しい現実は、CV/AI の民主化のおかげです。ハードウェアの低価格化が進み、深度知覚機能や機械学習(ML)が洗練されてきたこともあり、エッジ CV/AI システムで実用的なソリューションの展開が可能になりました。
エッジ AI を用いた空間 CVは、データセンターサービスを必要としない深度ベースのアプリケーションを展開できるほか、デバイス内部で画像処理を行うことでプライバシーを守ることも可能です。
ハードウェアがより利用しやすくなるのと同時に、ソフトウェアや機械学習のワークフローにおいても重要な改善が進んでいます。いまだ専門性が高く、技術的な課題も多く残っていながらも、ユーザー自身で独自のモデルの学習を行えるツールも提供され、AI や CV はより利用しやすい存在になってきました。
標準的な ML パイプラインやワークフローでは、大規模なエッジコンピューティングとデプロイメントが依然として問題となることがあります。一般的に見られ、また最大の課題とされるものの 1 つは、実世界の応用先で機械学習モデルを作成・改善するために現在必要とされているコストと期間を削減することです。つまり、これらのデバイスをすべて管理するにはどうすればいいか、継続的な改善のための円滑なパイプラインをどのように実現するかが課題となっています。
また、計算処理の面で暗黙の制限があるため、デバイスに展開される最終モデルにはまた別の工夫が必要です(アプリは軽量で高性能である必要があるなど)。とはいえ、組み込み技術の進化は本当に早く、イテレーションごとに処理能力は飛躍に向上していきます。
空間 CV/AIは、まだまだ専門性やシステムが必要な分野です。ワークフローは多くの技術的課題のために複雑で解決に手間がかかることが多いため、付加価値の高い業務に集中するのではなく、ワークフローの円滑化に多くの時間が割かれています。
データセットの作成(画像や動画の収集とフィルタリング)、画像のアノテーション、前処理/拡張処理、学習、展開、継続的な改善のためのフィードバックループを成立させるという一連の流れは、複雑なプロセスです。ワークフローの各ステップは技術的に難しく、通常、時間と金銭的コストがかかりますが、接続性の限られた遠隔地で作業するシステムであれば、なおさらです。
Luxonis 社では顧客が複雑なタスクを解決し、大規模に自動化するためのソリューションを構築し、展開することを支援しているため、自分たちがこれらの問題すべてに直面することになります。私たちのミッションである「Robotic vision made simple」は、素晴らしく手頃な価格の深度対応ハードウェアだけでなく、合成データセットとシミュレーションによる堅固で円滑な ML パイプラインを提供します。
もう 1 つの重要な課題は、モデルの解釈可能性と、倫理、プライバシー、バイアスの観点に立ったデータセットの作成について、行う必要のある作業です。
最後になりますが、世界的なチップ供給の問題で、ハードウェアを皆さんの手に届けることが難しくなっています。
データ中心型 AI は、稼働中のモデルが十分にパフォーマンスを発揮していないときに役立つ可能性があります。そのモデルの最適化に多大な時間を費やしても、実質的な改善効果はほぼゼロということもしばしば起きます。その代わり、データ中心型 AI では、データセットの分析、クリーニング、改良に投資します。
通常、モデルのパフォーマンスが低下している場合、その問題はデータセット自体にあります。モデルに十分なパフォーマンスを出させるために十分なデータがないということです。これは、2 つの理由が考えられます。1 つ目はモデルがはるかに大量のデータを必要としているが、それは実世界では収集が困難なデータであること、2 つ目はモデルが実世界では起こるまでに多くの時間を要するレアケースのサンプルを十分に持っていないことです。
どちらの状況でも、合成データセットが役立つ可能性があります。
Unity のコンピュータービジョンツールのおかげで、フォトリアリスティックなシーンを作成し、マテリアル、光の条件、オブジェクトの配置などの要素のランダム化が非常に簡単にできます。ツールには、2D バウンディングボックス、3D バウンディングボックス、セマンティックおよびインスタンスセグメンテーション、さらに人体キーポイントなどの一般的なラベルが付属しています。さらに、これらはカスタムのランダマイザー、ラベラー、アノテーションで簡単に拡張することができます。
エッジ CV/AI を使って自動化・改善したいタスクのほとんどに、安全やセキュリティのために人を検知することが含まれている可能性が高いです。自律型システムやロボットが動作しているとき、ユーザーの安全を保証することが重要であり、人間に関するデータでモデルを学習させる必要があります。
つまり、全人類を代表するような、ポーズや体型などの情報を含む画像を大量に撮影する必要があるのです。このタスクでは、モデルを学習させるために実際の人間のデータを取得し始めると、プライバシー、倫理、バイアスに関するいくつかの懸念が生じます。
幸い、人間の 3D モデルやポーズを用いた合成データセットを利用することで、こうした懸念のいくつかを軽減することができます。非常に良い例として、Unity チームが PeopleSansPeople としてまとめた成果物があります。
PeopleSansPeople は、3D モデルと標準的なアニメーションを用いて、人体のポーズをランダムに変化させた人間中心の合成データセット作成ツールです。また、Unity のプロジェクトテンプレートを利用し、そこに独自の 3D モデルやポーズを追加することで、独自の人体合成データセットを作成することも可能です。
Luxonis 社では、このプロジェクトをベースに独自の人体合成データセットを作成し、モデルの学習を行っています。概して、Unity のコンピュータービジョンツールを使って、ラベラー、アノテーション、ランダム化について高度にカスタマイズした大規模かつ複雑なデータセットを作成します。これにより、私たちの ML チームは実世界データの収集や手作業によるアノテーションを待つことなく、顧客とともにより素早くイテレーションを行うことができるようになりました。
transformer アーキテクチャの導入以来、CV タスクはより身近なものとなっています。DALL-E 2 のような生成モデルも合成データセットの作成に使用でき、既知のオブジェクトやシーンの新しい視点を生成するニューラルアプローチとして NeRF を使用することも可能です。これらの革新的な技術が、オーディエンスの関心を集めていることは明らかです。
一方、より優れたアノテーションツールや、学習済みですぐに使えるモデルを備えたモデルズーやライブラリにアクセスできることが、幅広い分野での普及を後押ししています。
コンピュータービジョンの活用を盛んなものにしている重要な要因の 1 つが、ビジョンプロセッシングユニット(VPU)の急速な進化です。最新の VPU は 4TOPS の処理能力を持ち(最新の Intel Movidius Myriad X)、ホストなしでデバイス上でモデル推論を行うことができます。新世代の VPU には、より複雑な CV/AI アプリケーションをエッジに展開できるように、大幅な機能の向上が起きると期待されています。
農業や農作業に関連するアプリケーションには、私は常に関心を持っています。例えば、ドローンを使って牛の追跡・モニタリングを行う CV/AI アプリケーションが登場しました。
Gerard に、彼の視点をシェアしてくれたことを感謝します。彼の LinkedIn と Twitter で、彼の最新のアイデアをご覧ください。また、コンピュータービジョンモデルのトレーニングを向上させるために、Unity が合成データの生成をどのように支援するかについては、Unity コンピュータービジョンのウェブサイトをご覧ください。