WORKS 開発事例

ロボット開発 2026.06.09

【Lerobot】フィジカルAIは未知環境に対応できるのか？VLAモデル「π0.5（pi0.5）」の実機検証【ゼロショット適応性実験】

（この記事は、2026年4月末時点の内容です）

クフウシヤでは、現場の環境変化に柔軟に対応できるVLAモデル「π0（pi0）」を活用した開発を行っています。

π0は、カメラ映像と言葉の指示をもとにロボットの動作を生成するAIモデルとして2024年に登場しました。
多様なロボットや作業に対応できる一方、学習データに近い環境でしか十分な性能を発揮できないという課題がありました。

2025年に発表されたπ0.5（pi0.5）はその課題を克服し、一度も見たことのない家のキッチンや寝室の片付けといった作業を追加学習なしでこなせることを実証したモデルです（Physical Intelligence et al., 2025）。

その中でも今回は、「一度も経験（学習）していない初めての環境や状況でも、臨機応変に自律して動くこと（オープンワールド汎化）」を目指して開発された、非常に柔軟性の高いVLAモデルのひとつである「π0.5」の検証について、まとめました。

①実験の背景と目的

実際のロボット運用環境（工場のラインや作業現場）では、AIに事前に学習させたときと「完全に同じ状態」を毎回再現することは大変難しいです。
そのため、予期せぬ変化にも対応できる特性をもつこのVLAを用いて動作計画を行うことができれば、実務現場において極めて実用性が高く、画期的な解決策となります。

そこで本試験では、事前学習とは異なる複数の「初見のシチュエーション」を用意し、「π0」がどれだけ臨機応変に対応できるかを検証しました。

実際の現場でも安心して運用できるように、

１：「作業成功率80%以上」を目標に設定
２：万が一失敗した場合でも、その原因を詳細に記録・分析
３：２の結果を今後のデータセット収集や学習条件の見直しに反映→さらなる改良にフィードバック

というように、実用フェーズにおける動作成功率の向上につなげることを目的とします。

②実験環境と前提条件

■ 動作条件

① 対象物、ゴール目標はそれぞれアームに対して右側、正面側に配置する。

② ゴール目標である黒トレイは接着剤などの固定を行わず、自由に動作できるようにする。

③ WebカメラにはLeaderアームとGoPROが映らないように事前に調整する。

④ Folloerアームのグリッパーには緑色のビニールテープと緩衝材を巻き付けており、手先の識別性の向上と把持時のグリップ性の向上を図っている。

⑤ 作業時に環境の影響を考慮するため、追加照明などは配置せず、実験環境周辺を壁で囲うなどは行わないものとする。

■ 使用部材

１　SO101：白（Followerアームとして）
Lerobotフレームワークが利用できる物理アームとして選定。
また、グリッパーやワークの状態確認のためグリッパーリンクにWebカメラを増設している。
　
２　SO101：黒（Leaderアームとして）
Lerobotフレームワークが利用できる物理アームとして選定。こちらはデータ・セット収集のみ。
　
３　Webカメラ
作業環境をアーム対面から撮影するカメラ。
今回は作業の状態、アームの位置などを確認しやすくする工夫として斜めを向くように設営し、アーム、作業面を十分に撮影できるように画角の調整を行っている。
　
４　養生材：白
作業領域を示す四角い養生シート。作業卓の色と明確に区別できるような色のものを選定した。

５　トレイ：黒
今回のタスクにおける目標位置（ゴール）。このトレイに対象物を乗せるような作業を行う。なお、作業領域に対して固定は行わないものとする。

６　対象物
一般流通している袋入りの飴。今回は、３種類の対象物を用意した。
（青い包装の飴、黄色い包装の飴、黒い6面サイコロ）
　
７　GoPRO
実験撮影カメラ、今回の制御システム外で動作し、動画記録に利用している。
３のWebカメラに映らない位置において撮影するように注意した。

③学習データの収集

今回の検証では、以下のようなシナリオでLeaderアームを用いて動作を記録しました。

１：アーム右側の対象物（動画では青い包装の飴）に向かって移動。

２：グリッパーを展開し、対象物を把持するために位置合わせを行う。
　＊位置合わせの際にグリッパー手先が片方しか映らないため、映る側のグリッパー手先を対象物に当てるように位置合わせを行う。

３：対象物を把持・持ち上げを行う。

４：持ち上げた対象物をゴール位置（動画では黒いトレイ）まで運搬し、置く。

５：最後にアームを初期姿勢にもどす。

上記のシナリオにてエピソードを40回記録し、pi0.5ポリシーを使用して学習したものを動作規範として用いて、３つの実験を行いました。