Sakana AI、音声対話AIの応答速度と知識力を両立する新アーキテクチャ「KAME」を発表
YouTubeチャンネル「つくもち英語部」の連動コンテンツ置き場。
AI・データサイエンス分野の最新ニュースを題材に、エンジニア特有の英語表現を日英対訳で学べます。
動画スクリプトに加え、専門用語の解説や関連するG検定項目への内部リンクも併設。
「英語で技術情報をキャッチアップする力」を、技術知識と一緒に鍛えるのが狙いです。
理系のキャリアをグローバルに広げたい人のための、実務直結型の英語学習リソースです。
Sakana AIは、高速な応答と高度な知識を両立させたリアルタイム音声対話AIの新アーキテクチャ「KAME」を発表しました。このモデルは、音声直接生成(S2S)モデルとバックエンドのLLMを連結した「タンデム構造」を採用しており、バックエンドが非同期で応答指針を送ることで「話しながら考える」低遅延な対話を実現しています。評価実験では既存モデルを上回る知識性能を示しており、用途に応じてGPT-4やClaudeなどの外部LLMを柔軟に使い分けられる点も大きな特徴です。
📖 英文と日本語訳(一文ずつ)
Sakana AI has announced KAME (Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI), a new architecture for real-time speech conversational AI.
Sakana AIは、リアルタイム音声対話AIの新たなアーキテクチャ「KAME(Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI)」を発表しました
This study has been accepted to ICASSP 2026, and the paper, inference code, fine-tuning code, and models have been made publicly available.
本研究はICASSP 2026に採択されており、論文、推論コード、ファインチューニングコード、モデルがそれぞれ公開されています
Conventionally, there are two primary methods for achieving voice interaction with AI.
従来、AIとの音声対話を実現する方式には大きく二種類があります
One is the Speech-to-Speech (S2S) method, which generates speech directly from audio; while it offers fast response times, it tends to be inferior in terms of knowledge.
一つは音声から直接音声を生成するSpeech-to-Speech(S2S)方式で、応答が速い反面、知識面で劣る傾向があります
The other is a cascaded approach that connects speech-to-text (STT), large language models (LLM), and text-to-speech (TTS) in series; while superior in terms of knowledge, it faced challenges with response latency.
もう一つは音声認識(STT)、大規模言語モデル(LLM)、音声合成(TTS)を直列につなぐカスケード方式で、知識面では優れるものの応答に遅延が生じる課題がありました
KAME employs a mechanism that links an S2S model with a backend large language model to combine the strengths of both.
KAMEは、この両者の長所を組み合わせるため、S2Sモデルとバックエンドの大規模言語モデルを連結する仕組みを採用しています
Specifically, the S2S model manages a high-speed response loop, while the backend LLM operates asynchronously on a slower cycle, injecting response guidelines known as "oracle signals" into the S2S side as they become available.
具体的には、S2Sモデルが高速な応答ループを担当する一方で、バックエンドのLLMはより遅いサイクルで非同期に動作し、利用可能になった時点で「オラクル信号」と呼ばれる応答指針をS2S側に注入します
As the user’s speech progresses, the backend LLM is repeatedly invoked for the growing partial transcript, incrementally refining the response signal.
ユーザーの発話が進むにつれて、バックエンドLLMは伸び続ける部分的な書き起こしに対して繰り返し呼び出され、応答信号を段階的に洗練させていきます
This is said to realize a new paradigm of "thinking while speaking" rather than "thinking before speaking."
これにより、「考えてから話す」のではなく「話しながら考える」という新しいパラダイムが実現されるとしています
The research team evaluated KAME by comparing it with Moshi, an existing full-duplex S2S model.
研究チームは、KAMEを既存の全二重S2SモデルであるMoshiと比較する形で評価しました
To ensure fairness, both systems started from the same Moshi base model and were trained on the same data.
公平を期すため、両システムは同じMoshiベースモデルから出発し、同一データで学習されています
While Moshi is trained as a standard SFT model, KAME’s Moshi-based frontend is trained to receive oracle signals from the backend model.
Moshiは標準的なSFTモデルとして学習される一方、KAMEのMoshiベースのフロントエンドはバックエンドモデルからのオラクル信号を受け取れるよう学習されています
The evaluation adopted a methodology in which MT-Bench text prompts were converted into audio queries, after which the resulting audio responses were transcribed and scored by an LLM judge.
評価ではMT-Benchのテキストプロンプトを音声に変換して質問音声とし、回答音声を書き起こした上でLLMジャッジで採点する方式が採られました
KAME, utilizing gpt-4.1 as its backend, outperformed Moshi in the reasoning problems presented in the demo, as well as in STEM and humanities subjects.
デモで示された推論問題、STEM分野、人文分野の質問において、バックエンドにgpt-4.1を用いたKAMEはMoshiを上回るスコアを示しています
Furthermore, KAME features the easy replacement of backend LLMs, allowing users to select models such as GPT-4.1, Claude-Opus-4-1, or Gemini-2.5-Flash depending on the application.
さらにKAMEはバックエンドLLMの差し替えが容易で、gpt-4.1、claude-opus-4-1、gemini-2.5-flashなど用途に応じて選択できる点も特徴です
According to the examples in the article, Claude-opus-4-1 tends to achieve high scores in reasoning tasks, while GPT-4.1 is reported to show a tendency for high scores in the humanities.
記事内の例では、claude-opus-4-1は推論タスクで高いスコアを示す傾向があり、gpt-4.1は人文分野で高いスコアを示す傾向があるとされています
It is concluded that the tandem structure allows for flexible backend switching, enabling the strengths of individual LLMs to be leveraged without altering the dialogue framework.
タンデム構造によりバックエンドを柔軟に切り替えられるため、対話の枠組みを変えることなく、それぞれのLLMの強みを活用できると結論づけられています
🎧 通し読み(全文)
リスニング・シャドーイング用の全文です。
Sakana AI has announced KAME (Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI), a new architecture for real-time speech conversational AI. This study has been accepted to ICASSP 2026, and the paper, inference code, fine-tuning code, and models have been made publicly available. Conventionally, there are two primary methods for achieving voice interaction with AI. One is the Speech-to-Speech (S2S) method, which generates speech directly from audio; while it offers fast response times, it tends to be inferior in terms of knowledge. The other is a cascaded approach that connects speech-to-text (STT), large language models (LLM), and text-to-speech (TTS) in series; while superior in terms of knowledge, it faced challenges with response latency. KAME employs a mechanism that links an S2S model with a backend large language model to combine the strengths of both. Specifically, the S2S model manages a high-speed response loop, while the backend LLM operates asynchronously on a slower cycle, injecting response guidelines known as "oracle signals" into the S2S side as they become available. As the user’s speech progresses, the backend LLM is repeatedly invoked for the growing partial transcript, incrementally refining the response signal. This is said to realize a new paradigm of "thinking while speaking" rather than "thinking before speaking." The research team evaluated KAME by comparing it with Moshi, an existing full-duplex S2S model. To ensure fairness, both systems started from the same Moshi base model and were trained on the same data. While Moshi is trained as a standard SFT model, KAME’s Moshi-based frontend is trained to receive oracle signals from the backend model. The evaluation adopted a methodology in which MT-Bench text prompts were converted into audio queries, after which the resulting audio responses were transcribed and scored by an LLM judge. KAME, utilizing gpt-4.1 as its backend, outperformed Moshi in the reasoning problems presented in the demo, as well as in STEM and humanities subjects. Furthermore, KAME features the easy replacement of backend LLMs, allowing users to select models such as GPT-4.1, Claude-Opus-4-1, or Gemini-2.5-Flash depending on the application. According to the examples in the article, Claude-opus-4-1 tends to achieve high scores in reasoning tasks, while GPT-4.1 is reported to show a tendency for high scores in the humanities. It is concluded that the tandem structure allows for flexible backend switching, enabling the strengths of individual LLMs to be leveraged without altering the dialogue framework.
📝 学習のヒント
- 1まず英文を読む — 知らない単語にあたりをつけてから音声へ。
- 2一文ずつ確認 — 日本語訳と照合し、構文を理解する。
- 3通し読み Normal で耳を作る — 内容を追いながらリピート。
- 4Fast でシャドーイング — 口を慣らし、リスニング速度を上げる。
- 5翌日に復習 — 1日空けて再聴すると長期記憶に定着しやすい。
