・Pollen Roboticsが開発したビジョンライブラリ「Pollen-Vision」が初公開された。
・Pollen-Visionは、ロボティクスに適用可能なZero-Shotビジョンモデルを統一的に扱うインターフェースを提供する。
・このライブラリを用いることで、自然環境での未知の物体の自律把持の実現に向けた第一歩となる。

Pollen Roboticsチームは、オープンソースのヒューマノイドロボット「Reachy」の開発者として知られています。このたび、同チームが開発した画期的なビジョンライブラリ「Pollen-Vision」が初公開されました。このライブラリは、ロボティクスにおける Zero-Shot ビジョンモデルを統一的に扱うためのインターフェースを提供するものです。

Pollen-Visionの特徴

・ロボティクスに直接適用可能なビジョンモデルを厳選
・簡単なインストールと使用が可能
・独立したモジュールで構成され、3Dオブジェクト検出パイプラインの作成が可能
・Zero-Shotモデルにより、トレーニング不要ですぐに使用可能

主要モデル

Pollen-Visionには、以下のようなキーとなるモデルが含まれています。

  • OWL-VIT (Open World Localization – Vision Transformer, By Google Research) テキストを条件としたゼロショットの2Dオブジェクトローカリゼーションを実行
  • Mobile Sam (Segment Anything Model の軽量版, By Meta AI) ゼロショットの画像セグメンテーションモデル
  • RAM (Recognize Anything Model, By OPPO Research Institute) ゼロショットの画像タグ付けに特化し、テキストによる物体の存在判定が可能

実世界でのユースケース:自由な環境での未知の物体の把持

Pollen-Visionを用いることで、物体のセグメンテーションマスクから、ピクセル空間での位置(u, v)を推定できます。さらに、深度情報を用いることで、物体の3次元位置(x, y, z)をロボットの座標系で表現できます。これにより、ロボットのエンドエフェクターを目的の物体の位置に移動させ、つかむことが可能になります。

今後の展望

Pollen-Visionは、自然環境での未知の物体の自律把持の実現に向けた第一歩です。今後は以下のような課題に取り組んでいく予定です。

・物体検出の精度と一貫性の向上
・時間的・空間的な一貫性の追加
・把持手法の拡張(6D検出、把持ポーズ生成など)
・全体的な処理速度の改善

情報ソース