LLMがどのようにしてロボットに応用されているか、をまとめた本。非常に網羅性が高く、昨今のフィジカルAI界の盛り上がりに対して、技術的視点を持って冷静に受け止められるようになる、かもしれない本

基盤モデルとロボットの融合 マルチモーダルAIでロボットはどう変わるのか (KS理工学専門書) 河原塚 健人, 松嶋 達也

これまでのロボットの制御、LLM登場以降のロボットへの応用、エンドツーエンドなVLAへの応用、という、基盤モデルがネイティブにロボットに使うための要素技術が整理されており、とても分かりやすい。また、それぞれ、低レベル認識→高レベル認識→高レベル計画→低レベル計画、という、一般的なロボット認識・制御の順に即して解説されており、頭の中で整理しやすかった。

5.1 基盤モデルをロボットに応用するアプローチ p168 より

5.1 基盤モデルをロボットに応用するアプローチ p168 より

VLAに関して有名なのはπ0シリーズだけど、これまでのどういった要素技術を組み合わせているか、あるいはどの部分をPhysical Intelligence社は新規に作ったのか、が分かるようになる。ちなみに、4/17にπ0.7にアップデートされており、さらに性能が上がっている様子

本書に載っていないVLAだと、去年の2月に公開されたFigure社のHelixや、先月公開されたGenelist社のGEN-1があり、特にGEN-1はインパクトがすごく界隈で盛り上がっていた1

個人的に一番面白かったのは、第7章の今後の展開。ロボットによって異なるセンサデータと基盤モデルの融合、推論スピード律速、各ロボットの身体性の違いの吸収、ロボットによる能動的なリアルタイムの学習などなど、実際の現場開発者ならではの考察がまとまっていて良かった。