・GPT-4oの登場:テキスト・音声・画像をリアルタイムで処理できる革新的なマルチモーダルAIモデル。高速応答、多言語対応、コスト効率に優れる。
・無料ユーザーへのGPT-4解放:ウェブ情報の取得、データ分析、画像解析、ファイルのアップロードなど、高度な機能が無料で利用可能に。
・ChatGPTデスクトップアプリ:macOS用アプリが発表され、GPT-4oの音声・動画機能を活用。キーボードショートカットですぐ起動、画面共有しながら対話可能。
OpenAIのイベントで、AI技術の新しい時代の幕開けを予感させる重大発表がありました。最新モデル「GPT-4o」の登場と、ChatGPTの無料ユーザーへの機能解放です。これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。
GPT-4oとは?マルチモーダルAIの新時代
GPT-4o(oはomni=全てを意味)は、テキスト・音声・画像をリアルタイムで処理できる革新的AIモデルです。特徴は以下の通りです。
- マルチモーダル:テキスト、音声、画像の組み合わせを入力・出力可能
- 高速応答:平均320ミリ秒で応答し、人間との自然な対話が可能に
- 多言語対応:英語とコードの処理能力が大幅に向上、非英語テキストにも対応
- コスト効率:GPT-4 Turboの2倍高速で半額、APIのレート制限は5倍に
これまでのモデルは、音声をテキストに変換してから処理していたため遅延がありましたが、GPT-4oは一つのモデルで処理するため、より自然な対話を実現しています。
GPT-4oの活用事例
GPT-4oは様々な場面で活用できます。例えば、
- 二つのGPT-4oが交互に歌を歌う
- 英語とスペイン語をリアルタイムで翻訳
- リアルタイムでのインタビュー対策
- 数学の問題解決を一緒に行う
などが紹介されています。音声・視覚・テキストを統合的に扱えるGPT-4oは、ユーザーとの自然なインタラクションを可能にします。
無料ユーザーへのGPT-4解放
もう一つの重大発表が、無料ユーザーへのGPT-4レベルのAI解放です。無料でも以下の機能が使えるようになります。
- ウェブから情報を取得し、リアルタイムの情報を応答に反映
- データを分析しグラフを作成
- 写真を解析して会話
- PDFやCSVなどのファイルをアップロードし要約・分析
- GPTストアでGPTsを検索して利用
- 会話を通じてユーザー情報を自動的に記憶
ただし、無料ユーザーには画像生成機能へのアクセスや、一定のメッセージ制限があります。
デスクトップアプリの登場
無料・有料ユーザー向けに、macOS用のChatGPTデスクトップアプリが発表されました。ユーザーの作業効率化を目指した設計で、以下のような特徴があります。
- キーボードショートカット(Option + Space)ですぐに起動
- GPT-4oの音声・動画機能を活用した音声会話
- 画面共有したまま、画面の内容について対話可能
アプリはPlusユーザーから順次提供され、今年後半にはWindows版のリリースも予定されているとのことです。