・HuggingFaceが強力な汎用マルチモーダルモデル「Idefics2」を8Bパラメータ、Apache 2.0ライセンスでリリース。
・Idefics2は優れたOCR機能を備え、視覚的質問応答で高い性能を示し、はるかに大きなモデルと競合。
・HuggingFaceはIdefics2のfine-tuningに使用したオープンなマルチモーダルデータセット「The Cauldron」も公開。

HuggingFaceは汎用マルチモーダルモデル「Idefics2」をリリースしました。このモデルは、任意のテキストと画像を入力として受け取り、テキストによる応答を生成することができます。

Idefics2の特徴

・8Bのパラメータを持ち、Apache 2.0ライセンスで公開
・強化されたOCR(光学式文字認識)機能を搭載
・画像に関する質問に答え、視覚的なコンテンツを説明
・複数の画像を基にストーリーを作成
・ドキュメントから情報を抽出
・基本的な算術演算を実行

Idefics2は、視覚的質問応答ベンチマークにおいてそのクラスサイズのトップの性能を示し、LLava-Next-34BやMM1-30B-chatなどのはるかに大きなモデルと競合しています。

引用:https://huggingface.co/blog/idefics2

fine-tuningデータセット「The Cauldron」も公開

HuggingFaceは、Idefics2のfine-tuningに使用したマルチモーダルインストラクションデータセット「The Cauldron」も公開しました。これは、50の手動でキュレーションされたデータセットをマルチターン会話用にフォーマットしたオープンなコンパイルです。

Idefics1からの改善点

・ネイティブ解像度とアスペクト比の画像を操作
・OCR機能の大幅な強化
・視覚的特徴の言語バックボーンへの統合を簡素化
・事前学習済みバックボーンの改善

これらの改善により、Idefics2はIdefics1と比較して10分の1のサイズでありながら、大幅な性能の向上を達成しました。

実装

Idefics2はHugging Face Hubで利用可能であり、最新のtransformersバージョンでサポートされています。fine-tuningのためのcolabも提供されており、特定のユースケースでIdefics2を改善するのに役立ちます。

コードも公開されています。

引用:https://huggingface.co/blog/idefics2

情報ソース