Qwen、LLMの内部動作を解明する解釈可能性ツールキット「Qwen-Scope」を公開
YouTubeチャンネル「つくもち英語部」の連動コンテンツ置き場。
AI・データサイエンス分野の最新ニュースを題材に、エンジニア特有の英語表現を日英対訳で学べます。
動画スクリプトに加え、専門用語の解説や関連するG検定項目への内部リンクも併設。
「英語で技術情報をキャッチアップする力」を、技術知識と一緒に鍛えるのが狙いです。
理系のキャリアをグローバルに広げたい人のための、実務直結型の英語学習リソースです。
Qwenチームは、Qwen3および3.5シリーズの内部動作を可視化・解明するための解釈可能性ツールキット「Qwen-Scope」を公開しました。本ツールはスパースオートエンコーダ(SAE)を用いて複雑な情報を解釈可能な特徴に分解し、明示的な指示なしでの出力制御や、従来比約15倍の効率を誇るデータ合成などを実現します。さらに、言語混在や無限ループといった不具合の修正、評価ベンチマークの最適化など、モデル開発の全工程において高度な制御と効率化を可能にします。現在はHugging Face等で公開されており、単なる分析ツールに留まらず、次世代モデルの進化を加速させる中核技術としての活用が期待されています。
📖 英文と日本語訳(一文ずつ)
The Qwen team has introduced Qwen-Scope, an interpretability toolkit designed to elucidate the internal workings of large language models (LLMs).
Qwenチームは、大規模言語モデル(LLM)の内部動作を解明するための解釈可能性ツールキット「Qwen-Scope」を発表しました
This toolkit was trained based on the Qwen3 and Qwen3.5 series models and employs a methodology of inserting and training Sparse Autoencoders (SAEs) within the models' hidden layers.
本ツールキットは、Qwen3およびQwen3.5シリーズのモデルを基盤として学習されたもので、モデルの隠れ層にスパースオートエンコーダ(SAE)を挿入・訓練する手法を採用しています
By imposing sparsity constraints, SAE decomposes the model's dense hidden representations into sparse, decoupled, and interpretable features, enabling the visualization of the internal mechanisms underlying Qwen's behavior.
SAEはスパース性制約を課すことにより、モデルの密な隠れ表現を疎で分離された解釈可能な特徴へと分解する仕組みであり、これによりQwenの挙動を支える内部メカニズムを可視化することが可能になります
Fourteen sets of SAEs have been released, corresponding to a total of seven LLMs from the Qwen3 and Qwen3.5 series, including both dense and Mixture of Experts (MoE) models.
公開されたのは、Qwen3およびQwen3.5シリーズの密モデルとMoE(Mixture of Experts)モデルを含む計7つのLLMに対応する14セットのSAEです
To ensure broad feature coverage, strong semantic validity, and stable training, 500 million tokens were sampled from each model's pre-training data for the training process.
幅広い特徴のカバレッジ、強い意味的妥当性、安定した学習を確保するため、各モデルの事前学習データから5億トークンをサンプリングして訓練が行われました
SAE widths range from 32,000 to 128,000, and two types of L0 values, 50 and 100, are provided.
SAEの幅は3万2千から12万8千まで、L0値は50と100の2種類が提供されています
The scope of application for Qwen-Scope spans four areas: inference, data, training, and evaluation.
Qwen-Scopeの応用範囲は推論、データ、学習、評価の4分野にわたります
During inference, controlling feature activations enables the targeted control of outputs such as language, entities, and style without the need for explicit natural language instructions.
推論面では、特徴の活性化を制御することで、自然言語による明示的な指示を与えずとも、言語、エンティティ、スタイルといった出力結果を狙い通りに制御できます
On the data front, high-precision classification is achieved without additional training by selecting highly relevant features from a small amount of seed data. Furthermore, by utilizing inactive feature information to synthesize data that complements long-tail capabilities, training data efficiency has reportedly improved by approximately 15 times compared to conventional methods.
データ面では、少量のシードデータから関連性の高い特徴を選び出すことで、追加の学習プロセスなしに高精度な分類が実現されるほか、活性化されていない特徴情報を活用してロングテール能力を補完するデータを合成でき、従来手法と比較して学習データの効率比が約15倍向上したとされています
Regarding its application in the training phase, to address language-mixing issues such as the unexpected inclusion of Chinese in English responses, abnormal activation patterns are identified, and a loss function is designed to suppress them during supervised fine-tuning (SFT), thereby reducing the frequency of undesirable outputs.
学習段階での活用としては、英語の応答に予期せぬ中国語が混入するといった言語混在問題に対し、異常な活性化パターンを特定したうえで、教師あり微調整(SFT)の際にそれを抑制する損失関数を設計することで、望ましくない出力の頻度を低減します
Furthermore, to address the issue of infinite repetitive generation—which is difficult to sample during the reinforcement learning (RL) stage—amplifying the corresponding abnormal activation features increases the sampling probability of these failure cases, enabling efficient optimization.
また、強化学習(RL)の段階ではサンプリングされにくい無限反復生成の問題に対して、対応する異常活性化特徴を増幅させることで、当該不良ケースのサンプリング確率を高め、効率的な最適化を可能にします
In terms of evaluation, analyzing the feature coverage of test sets allows for a quantitative understanding of evaluation redundancy across benchmarks.
評価面では、テストセットの特徴カバレッジを分析することで、ベンチマーク間の評価冗長性を定量的に把握できます
According to an analysis by the Qwen team, some widely used evaluation datasets show overlaps in activated features, confirming a decrease in the practical significance of repeated evaluations.
Qwenチームの分析によると、一部の広く使われている評価データセットには活性化される特徴に重複が見られ、繰り返し評価による実用的意義の低下が確認されたといいます
This enables the selection of benchmarks that achieve both higher coverage and lower evaluation costs.
これにより、より高いカバレッジと低い評価コストを両立するベンチマーク選定が可能になります
Qwen-Scope is available for testing on Hugging Face and ModelScope, and a technical report has also been released.
Qwen-ScopeはHugging FaceおよびModelScopeで試用可能で、技術レポートも公開されています
The Qwen team stated that the tool is not merely a means for post-analysis but can serve as a core engine driving model evolution, and expressed their openness to feedback from the community.
Qwenチームは本ツールが単なる事後分析の手段ではなく、モデル進化を駆動する中核的なエンジンになり得るとしており、コミュニティからのフィードバックを歓迎する姿勢を示しています
🎧 通し読み(全文)
リスニング・シャドーイング用の全文です。
The Qwen team has introduced Qwen-Scope, an interpretability toolkit designed to elucidate the internal workings of large language models (LLMs). This toolkit was trained based on the Qwen3 and Qwen3.5 series models and employs a methodology of inserting and training Sparse Autoencoders (SAEs) within the models' hidden layers. By imposing sparsity constraints, SAE decomposes the model's dense hidden representations into sparse, decoupled, and interpretable features, enabling the visualization of the internal mechanisms underlying Qwen's behavior. Fourteen sets of SAEs have been released, corresponding to a total of seven LLMs from the Qwen3 and Qwen3.5 series, including both dense and Mixture of Experts (MoE) models. To ensure broad feature coverage, strong semantic validity, and stable training, 500 million tokens were sampled from each model's pre-training data for the training process. SAE widths range from 32,000 to 128,000, and two types of L0 values, 50 and 100, are provided. The scope of application for Qwen-Scope spans four areas: inference, data, training, and evaluation. During inference, controlling feature activations enables the targeted control of outputs such as language, entities, and style without the need for explicit natural language instructions. On the data front, high-precision classification is achieved without additional training by selecting highly relevant features from a small amount of seed data. Furthermore, by utilizing inactive feature information to synthesize data that complements long-tail capabilities, training data efficiency has reportedly improved by approximately 15 times compared to conventional methods. Regarding its application in the training phase, to address language-mixing issues such as the unexpected inclusion of Chinese in English responses, abnormal activation patterns are identified, and a loss function is designed to suppress them during supervised fine-tuning (SFT), thereby reducing the frequency of undesirable outputs. Furthermore, to address the issue of infinite repetitive generation—which is difficult to sample during the reinforcement learning (RL) stage—amplifying the corresponding abnormal activation features increases the sampling probability of these failure cases, enabling efficient optimization. In terms of evaluation, analyzing the feature coverage of test sets allows for a quantitative understanding of evaluation redundancy across benchmarks. According to an analysis by the Qwen team, some widely used evaluation datasets show overlaps in activated features, confirming a decrease in the practical significance of repeated evaluations. This enables the selection of benchmarks that achieve both higher coverage and lower evaluation costs. Qwen-Scope is available for testing on Hugging Face and ModelScope, and a technical report has also been released. The Qwen team stated that the tool is not merely a means for post-analysis but can serve as a core engine driving model evolution, and expressed their openness to feedback from the community.
📝 学習のヒント
- 1まず英文を読む — 知らない単語にあたりをつけてから音声へ。
- 2一文ずつ確認 — 日本語訳と照合し、構文を理解する。
- 3通し読み Normal で耳を作る — 内容を追いながらリピート。
- 4Fast でシャドーイング — 口を慣らし、リスニング速度を上げる。
- 5翌日に復習 — 1日空けて再聴すると長期記憶に定着しやすい。
