導入事例 導入事例

WORKS

SmolVLAで低コスト・高性能AIロボットを実現 【Hugging Face LeRobot 】

(2025年7月28日時点の記事です)

「SmolVLA」とは?

日々、AI技術の進化は目覚ましく、特にロボットの「知能化」を加速させる新技術として、「SmolVLA(Small Vision-Language Agent)」が注目を集めています。

VLAとは、ロボットが「見る(Vision)」情報と「言葉(Language)」を理解し、それらを統合してアクション(Action)を実行する画期的なフィジカルAIのモデルです。
SmolVLAは、VLAをより手軽で効率的にしたVLAモデルです。

従来のVLAモデルは、大規模(数十億のパラメータ)であり、高いトレーニングコストや実世界での展開が難しいという課題がありました。
また、研究や産業界の特定のデータセットに依存し、手頃な価格のロボットプラットフォームから得られる多様なデータの活用まで検討されていませんでした。

SmolVLAは、トレーニングと推論の両方のコストを大幅に削減しつつ、競争力のある性能を維持している点で、上記の課題の解決策として大きなトレンドとなっています。

SmolVLAの特徴

 1.導入ハードルの低下
   (コンパクト設計:約4.5億パラメータ、単一GPUでOK:MacBookや民生用PCでも開発可能)
   
 2.効率性と性能の両立
   (軽量アーキテクチャ:無駄を省いた設計、非同期推論スタック:タスク完了 30%高速化)
   

SmolVLAの革新性

Hugging Face(米)が中心となり、SmolVLAのオープンソースが公開されています〔1〕 。

Hugging Faceが開発・提供するLeRobotは、実世界のロボット向けに特化したオープンソースの機械学習ライブラリおよびプラットフォームです。

PyTorchをベースに構築されており、 ロボット学習の障壁を下げ、より多くの人々がAIロボティクスの開発に貢献・恩恵を受けられるようにすることを目指しています。

クフウシヤでも、LeRobotのオープンソースを活用してアームロボットの実証実験を進めています。

(画像左)80000steps、22episodeで学習 
(画像右)40000step、20エピソード学習

今後も、私たちの仕事や職場でのロボット協働を目指して、より実用的な検証を進めていきます。


将来的には、飲食店のバックヤードや倉庫で仕分け作業をしたり、クフウシヤの得意な自律移動ロボットと組合せて遠隔地で細かい手作業をしてくれるロボットを想定しています。

例えば、自律移動xアーム制御で、災害地で働くロボット開発プロジェクトも進行中です。

SmolVLAは、従来のロボット開発におけるコストと複雑さという大きな課題を乗り越え、より手軽で効率的なAIロボティクスの実現を加速します。

これは、PoC(概念実証)の実施や、多様な産業分野でのロボット導入を検討されている大企業の新規事業部門の皆様にとって、非常に魅力的な技術となることが期待できます。

Hugging Face「LeRobot」
〔1〕https://huggingface.co/lerobot

CONTACT

CONTACT

弊社へのお問い合わせは下記のページより承ります。

ご質問やご依頼など、お気軽にご連絡ください。

お問い合わせはこちら