・OpenAIは新しいマルチモーダルAI「GPT-4o」を発表し、テキスト、音声、画像を同時に処理可能。
・GPT-4oはGPT-4 Turboと同等の性能を発揮し、視覚と聴覚の理解力が大幅に向上。安全性も設計段階から組み込まれている。
・GPT-4oのテキストと画像の機能はChatGPTで提供開始。今後、他のモダリティのサポートを信頼できるパートナーに提供予定。

OpenAIは2024年5月13日(現地時間)、新しい言語モデル「GPT-4o」を発表しました。GPT-4oは、テキスト、音声、画像を同時に処理できるマルチモーダルAIであり、人間とのより自然なインタラクションを可能にします。

GPT-4oの特徴

リアルタイムでのテキスト、音声、画像の処理 OpenAIによると、GPT-4oは「テキスト、音声、画像の任意の組み合わせを入力として受け取り、テキスト、音声、画像の任意の組み合わせを出力として生成する」ことができます。また、音声入力に対して平均320ミリ秒で応答できるとのことです。 GPT-4 Turboレベルの性能 GPT-4oは、英語のテキストとコードにおいてGPT-4 Turboと同等の性能を発揮し、非英語のテキストではさらに大きな改善が見られるそうです。また、GPT-4oはGPT-4 Turboと比べて50%安価で提供されるとのことです。 視覚と聴覚の理解力の向上 OpenAIは、「GPT-4oは、特に視覚と音声の理解において、既存のモデルと比べて大幅に優れている」と述べています。

GPT-4oの安全性と制限

OpenAIは、GPT-4oの安全性を設計段階から組み込んでおり、トレーニングデータのフィルタリングや、トレーニング後のモデルの動作の改善を行っているとのことです。また、音声出力に対する新しい安全システムも開発されています。

現在、GPT-4oのテキストと画像の入力およびテキスト出力が公開されていますが、他のモダリティについては、技術的なインフラストラクチャ、ユーザビリティ、安全性の確保に向けた作業が進められているそうです。

GPT-4oの利用可能性

GPT-4oのテキストと画像の機能は、ChatGPTで提供が開始されており、無料版とPlusユーザーに提供されています。また、開発者はAPIを通じてGPT-4oのテキストとビジョンモデルにアクセスできるようになりました。

OpenAIは、「GPT-4oの機能は反復的に展開される」とし、今後数週間から数ヶ月にかけて、他のモダリティのサポートを信頼できるパートナーに提供していく予定だと述べています。