・HuggingFaceが強力な汎用マルチモーダルモデル「Idefics2」を8Bパラメータ、Apache 2.0ライセンスでリリース。
・Idefics2は優れたOCR機能を備え、視覚的質問応答で高い性能を示し、はるかに大きなモデルと競合。
・HuggingFaceはIdefics2のfine-tuningに使用したオープンなマルチモーダルデータセット「The Cauldron」も公開。
HuggingFaceは汎用マルチモーダルモデル「Idefics2」をリリースしました。このモデルは、任意のテキストと画像を入力として受け取り、テキストによる応答を生成することができます。
Idefics2の特徴
・8Bのパラメータを持ち、Apache 2.0ライセンスで公開
・強化されたOCR(光学式文字認識)機能を搭載
・画像に関する質問に答え、視覚的なコンテンツを説明
・複数の画像を基にストーリーを作成
・ドキュメントから情報を抽出
・基本的な算術演算を実行
Idefics2は、視覚的質問応答ベンチマークにおいてそのクラスサイズのトップの性能を示し、LLava-Next-34BやMM1-30B-chatなどのはるかに大きなモデルと競合しています。
fine-tuningデータセット「The Cauldron」も公開
HuggingFaceは、Idefics2のfine-tuningに使用したマルチモーダルインストラクションデータセット「The Cauldron」も公開しました。これは、50の手動でキュレーションされたデータセットをマルチターン会話用にフォーマットしたオープンなコンパイルです。
Idefics1からの改善点
・ネイティブ解像度とアスペクト比の画像を操作
・OCR機能の大幅な強化
・視覚的特徴の言語バックボーンへの統合を簡素化
・事前学習済みバックボーンの改善
これらの改善により、Idefics2はIdefics1と比較して10分の1のサイズでありながら、大幅な性能の向上を達成しました。
実装
Idefics2はHugging Face Hubで利用可能であり、最新のtransformersバージョンでサポートされています。fine-tuningのためのcolabも提供されており、特定のユースケースでIdefics2を改善するのに役立ちます。
コードも公開されています。