SB Intuitions、日本語特化の大規模言語モデルベース音声合成システム「sarashina2.2-tts」を公開
YouTubeチャンネル「つくもち英語部」の連動コンテンツ置き場。
AI・データサイエンス分野の最新ニュースを題材に、エンジニア特有の英語表現を日英対訳で学べます。
動画スクリプトに加え、専門用語の解説や関連するG検定項目への内部リンクも併設。
「英語で技術情報をキャッチアップする力」を、技術知識と一緒に鍛えるのが狙いです。
理系のキャリアをグローバルに広げたい人のための、実務直結型の英語学習リソースです。
SB Intuitionsは、日本語に特化したLLM基盤のテキスト読み上げシステム「sarashina2.2-tts」を公開しました。わずか数秒の参照音声から声質やスタイルを再現できるゼロショット生成に対応し、日英混合の文章や落語を含む多様な表現を自然に発話可能です。法令を遵守して収集されたデータを用いて構築されており、現在は非商用ライセンスに基づき提供されています。
📖 英文と日本語訳(一文ずつ)
SB Intuitions has released "sarashina2.2-tts," a text-to-speech (TTS) system specialized for the Japanese language.
SB Intuitionsは、日本語に特化したテキスト読み上げ(TTS)システム「sarashina2.2-tts」を公開しました
Built on a large language model foundation, this model is a bilingual system that supports both Japanese and English.
本モデルは大規模言語モデルを基盤として構築されており、日本語と英語の双方に対応するバイリンガル仕様となっています
The sarashina2.2-0.5b has been adopted as the base model, with a parameter size of 0.8 billion.
ベースモデルにはsarashina2.2-0.5bが採用され、パラメータ規模は0.8Bです
A major feature of this system is its support for zero-shot voice generation.
本システムの大きな特徴は、ゼロショット音声生成に対応している点です
This system can replicate a speaker's voice quality, speaking style, and acoustic characteristics using only a few seconds of reference audio, without the need for fine-tuning.
これは、わずか数秒の参照音声があれば、ファインチューニングを行うことなく話者の声質や話し方、音響的特徴を再現できる仕組みです
Furthermore, it supports cross-lingual generation, which maintains speaker identity and speaking style across Japanese and English, as well as code-switching for the natural reading of sentences where both languages are mixed.
さらに、日本語と英語の間で話者の同一性や発話スタイルを保ったまま音声を生成するクロスリンガル生成や、一つの文章内で日本語と英語が混在する場合でも自然に読み上げるコードスイッチングにも対応しています
In terms of speaking styles, a diverse range of styles—including narration, broadcasting, conversation, customer service, and even rakugo—can be transferred from reference audio.
発話スタイルの面では、ナレーション、放送、会話、カスタマーサービス、さらには落語まで、参照音声から多様なスタイルを転写することが可能です
Large-scale end-to-end learning is reportedly achieving high pronunciation accuracy for Japanese text.
大規模なエンドツーエンド学習により、日本語テキストに対する高い発音精度を実現しているとされています
Regarding the training data, it has been explained that only legally purchased audio sources, publicly available audio archives, and data collected in compliance with domestic laws and regulations are used.
学習データについては、正規に購入した音源、公開されている音声アーカイブ、および国内法令を遵守して収集したデータのみを使用していると説明されています
The collection was reportedly conducted in compliance with robots.txt and the terms of service.
収集にあたってはrobots.txtや利用規約を遵守したとのことです
This model is provided under the "Sarashina Model NonCommercial License Agreement," and an inquiry is required for commercial use.
本モデルは「Sarashina Model NonCommercial License Agreement」に基づき提供されており、商用利用を希望する場合は問い合わせが必要です
Additionally, this model is built upon the code and models of open-source projects such as CosyVoice, HiFT-GAN, and 3D-Speaker.
また、本モデルはCosyVoice、HiFT-GAN、3D-Speakerといったオープンソースプロジェクトのコードやモデルを基盤として構築されています
🎧 通し読み(全文)
リスニング・シャドーイング用の全文です。
SB Intuitions has released "sarashina2.2-tts," a text-to-speech (TTS) system specialized for the Japanese language. Built on a large language model foundation, this model is a bilingual system that supports both Japanese and English. The sarashina2.2-0.5b has been adopted as the base model, with a parameter size of 0.8 billion. A major feature of this system is its support for zero-shot voice generation. This system can replicate a speaker's voice quality, speaking style, and acoustic characteristics using only a few seconds of reference audio, without the need for fine-tuning. Furthermore, it supports cross-lingual generation, which maintains speaker identity and speaking style across Japanese and English, as well as code-switching for the natural reading of sentences where both languages are mixed. In terms of speaking styles, a diverse range of styles—including narration, broadcasting, conversation, customer service, and even rakugo—can be transferred from reference audio. Large-scale end-to-end learning is reportedly achieving high pronunciation accuracy for Japanese text. Regarding the training data, it has been explained that only legally purchased audio sources, publicly available audio archives, and data collected in compliance with domestic laws and regulations are used. The collection was reportedly conducted in compliance with robots.txt and the terms of service. This model is provided under the "Sarashina Model NonCommercial License Agreement," and an inquiry is required for commercial use. Additionally, this model is built upon the code and models of open-source projects such as CosyVoice, HiFT-GAN, and 3D-Speaker.
📝 学習のヒント
- 1まず英文を読む — 知らない単語にあたりをつけてから音声へ。
- 2一文ずつ確認 — 日本語訳と照合し、構文を理解する。
- 3通し読み Normal で耳を作る — 内容を追いながらリピート。
- 4Fast でシャドーイング — 口を慣らし、リスニング速度を上げる。
- 5翌日に復習 — 1日空けて再聴すると長期記憶に定着しやすい。
