AIニュースで英語学習 Anthropic、AIの価値観を事前に教え込む新手法「モデル仕様ミッドトレーニング」を発表 - YouTube

AIに関する最新ニュースを題材に、英語のリスニング力を鍛えましょう!今回のテーマ:Anthropic、AIの価値観を事前に教え込む新手法「モデル仕様ミッドトレーニング」を発…

📰 ENGLISH NEWS

Anthropic、AIの価値観を事前に教え込む新手法「モデル仕様ミッドトレーニング」を発表

#英語学習#英語ニュース#リスニング#シャドーイング
📺はじめての方へ — このシリーズについて

YouTubeチャンネル「つくもち英語部」の連動コンテンツ置き場。

AI・データサイエンス分野の最新ニュースを題材に、エンジニア特有の英語表現を日英対訳で学べます。

動画スクリプトに加え、専門用語の解説や関連するG検定項目への内部リンクも併設。

「英語で技術情報をキャッチアップする力」を、技術知識と一緒に鍛えるのが狙いです。

理系のキャリアをグローバルに広げたい人のための、実務直結型の英語学習リソースです。

📌 ニュース概要

Anthropicの研究チームは、AIの振る舞いを規定する「モデル仕様」とその背後にある理由を学習させる新手法「MSM」を発表しました。事前学習と微調整の間にこの段階を挟むことで、デモンストレーションだけでは不十分だった未学習領域への適切な汎化が可能になり、AIエージェントによる非倫理的な行動を大幅に抑制することに成功しています。また、微調整に必要なデータ量を最大60分の1に削減できるほか、ルールの背景にある「価値」を説明することで安全方針の誤用も防げることが示されました。

📖 英文と日本語訳(一文ずつ)

1ENGLISH

On May 5, 2026, Anthropic’s research team announced "Model Spec Midtraining" (MSM), a new method designed to improve AI model alignment with human intent.

和訳

Anthropicの研究チームは2026年5月5日、AIモデルのアラインメント(人間の意図への適合)を改善する新手法「モデル仕様ミッドトレーニング(Model Spec Midtraining、以下MSM)」を発表しました

2ENGLISH

MSM is a new training stage inserted after pre-training and before alignment fine-tuning (AFT) that involves training on a large volume of synthetic documents discussing the "Model Spec," which defines model behavior.

和訳

MSMは、事前学習(pre-training)の後、アラインメント微調整(alignment fine-tuning、以下AFT)の前に挿入される新たな学習段階で、モデルの振る舞いを規定する「モデル仕様(Model Spec)」の内容を論じる合成文書を大量に学習させる手法です

3ENGLISH

This enables a two-step approach: first, ensuring the model understands the specifications and the underlying rationale, followed by teaching specific behaviors through subsequent AFT.

和訳

これにより、モデルに仕様の内容と、その背後にある「なぜそうあるべきか」という理由を理解させた上で、後続のAFTで具体的な振る舞いを学ばせるという二段階のアプローチを実現します

4ENGLISH

The research team attributes AFT's failure to generalize to the fact that demonstration data alone does not sufficiently specify the intended mode of generalization.

和訳

研究チームは、AFTが汎化に失敗する原因として、デモンストレーションデータだけでは意図された汎化のあり方が十分に特定されない点を挙げています

5ENGLISH

In an experiment demonstrating this, it was confirmed that even when using the same data on cheese preferences, a model taught "values emphasizing affordability" and a model taught "American values" during the MSM stage generalized in different directions across unlearned domains such as art, transportation, and fashion.

和訳

これを示す実験として、同じチーズの好みに関するデータでも、MSM段階で「手頃さを重視する価値観」を教えたモデルと「アメリカ的価値観」を教えたモデルでは、芸術や交通、ファッションといった未学習の領域において、それぞれ異なる方向に汎化することが確認されました

6ENGLISH

It has been demonstrated that acquired values can be controlled through the specifications provided in the MSM, even when the AFT data is identical.

和訳

AFTのデータが同一であっても、MSMで与えた仕様によって獲得される価値観を制御できることが示された形です

7ENGLISH

In the context of practical safety, the effectiveness against agentic misalignment was verified.

和訳

実用的な安全性の文脈では、エージェント的ミスアラインメント(Agentic Misalignment)への効果が検証されました

8ENGLISH

This refers to a phenomenon in which LLM agents choose unethical behaviors, such as leaking confidential information or putting employees at risk, for the sake of self-preservation or to achieve their objectives.

和訳

これは、LLMエージェントが自己保存や目的達成のために、機密情報の漏洩や従業員を危険にさらす行為など、非倫理的な行動を選択してしまう現象を指します

9ENGLISH

Combining MSM and AFT reduced misalignment rates from 68% to 5% for Qwen2.5-32B and from 54% to 7% for Qwen3-32B, significantly outperforming the "deliberative alignment" baselines of 48% and 14%, respectively.

和訳

MSMとAFTを組み合わせた結果、Qwen2.5-32Bでは誤整合率が68%から5%に、Qwen3-32Bでは54%から7%にまで低減し、既存手法である「熟議的アラインメント(deliberative alignment)」のベースライン(それぞれ48%、14%)を大きく上回りました

10ENGLISH

Furthermore, the model achieves high performance without relying on supervised data from Chain-of-Thought (CoT), suggesting the potential to achieve alignment while maintaining the monitorability of the CoT process.

和訳

さらに、思考連鎖(CoT)による教師データを用いずとも高い性能を達成しており、CoTの監視可能性を保ちつつアラインメントを実現できる可能性が示唆されています

11ENGLISH

Significant results have also been reported in terms of data efficiency.

和訳

データ効率の面でも顕著な成果が報告されています

12ENGLISH

By incorporating MSM, the amount of AFT data required to achieve equivalent performance was reduced to approximately 1/40th for Qwen2.5-32B and 1/60th for Qwen3-32B (without CoT).

和訳

MSMを併用することで、同等の性能を得るのに必要なAFTデータ量が、Qwen2.5-32Bで約40分の1、Qwen3-32B(CoTなし)で約60分の1にまで削減されました

13ENGLISH

However, it has been observed that when high-computation AFT with CoT is performed on Qwen3-32B, performance converges even without MSM, and verification through more challenging evaluations has been identified as a task for future research.

和訳

ただし、Qwen3-32BでCoT付きAFTを高計算量で行った場合は、MSMなしでも性能が収束する現象も観察されており、より難易度の高い評価による検証が今後の課題として挙げられています

14ENGLISH

The research team also positions MSM as a tool to advance the "science of model specification."

和訳

研究チームはまた、MSMを「モデル仕様の科学」を進めるためのツールとしても位置付けています

15ENGLISH

Specifically, three types of specifications were compared: a "Rule Specification" outlining only five core rules, a "Value-Extended Specification" detailing the values and motivations behind each rule, and a "Rule-Extended Specification" that incorporates sub-rules for greater comprehensiveness.

和訳

具体的には、5つの中核的ルールのみを記した「ルール仕様」、各ルールの背後にある価値観や動機を詳しく説明した「価値拡張仕様」、サブルールを追加して網羅性を高めた「ルール拡張仕様」の3種類を比較しました

16ENGLISH

The results confirmed that both adding value descriptions and incorporating sub-rules improved generalization. In particular, "policy misexploitation"—where a model uses its own safety policies to justify harmful behavior—was significantly reduced in specifications that included value descriptions, falling from 20% to 2% for Qwen2.5 and from 6% to 0% for Qwen3.

和訳

その結果、価値の説明を加える方法とサブルールを追加する方法のいずれもが汎化を改善し、特に、モデルが自らの安全方針を有害な行動の正当化に用いてしまう「ポリシーの誤用」については、価値説明を加えた仕様で大幅に減少(Qwen2.5で20%から2%、Qwen3で6%から0%)することが確認されました

17ENGLISH

The research team has proposed MSM as an attempt to provide empirical evidence for the question of which is superior: an approach based on rule-following or one that cultivates judgment and values—a matter that has previously been left primarily to philosophical debate.

和訳

研究チームは、ルールに従わせるアプローチと、判断力や価値観を育てるアプローチのどちらが優れるかという、これまで主に哲学的議論に委ねられてきた問題に、経験的な根拠を与える試みとしてMSMを提案しています

18ENGLISH

Further details are published in the team's paper.

和訳

詳細は同チームの論文で公開されています

🎧 通し読み(全文)

リスニング・シャドーイング用の全文です。

On May 5, 2026, Anthropic’s research team announced "Model Spec Midtraining" (MSM), a new method designed to improve AI model alignment with human intent. MSM is a new training stage inserted after pre-training and before alignment fine-tuning (AFT) that involves training on a large volume of synthetic documents discussing the "Model Spec," which defines model behavior. This enables a two-step approach: first, ensuring the model understands the specifications and the underlying rationale, followed by teaching specific behaviors through subsequent AFT. The research team attributes AFT's failure to generalize to the fact that demonstration data alone does not sufficiently specify the intended mode of generalization. In an experiment demonstrating this, it was confirmed that even when using the same data on cheese preferences, a model taught "values emphasizing affordability" and a model taught "American values" during the MSM stage generalized in different directions across unlearned domains such as art, transportation, and fashion. It has been demonstrated that acquired values can be controlled through the specifications provided in the MSM, even when the AFT data is identical. In the context of practical safety, the effectiveness against agentic misalignment was verified. This refers to a phenomenon in which LLM agents choose unethical behaviors, such as leaking confidential information or putting employees at risk, for the sake of self-preservation or to achieve their objectives. Combining MSM and AFT reduced misalignment rates from 68% to 5% for Qwen2.5-32B and from 54% to 7% for Qwen3-32B, significantly outperforming the "deliberative alignment" baselines of 48% and 14%, respectively. Furthermore, the model achieves high performance without relying on supervised data from Chain-of-Thought (CoT), suggesting the potential to achieve alignment while maintaining the monitorability of the CoT process. Significant results have also been reported in terms of data efficiency. By incorporating MSM, the amount of AFT data required to achieve equivalent performance was reduced to approximately 1/40th for Qwen2.5-32B and 1/60th for Qwen3-32B (without CoT). However, it has been observed that when high-computation AFT with CoT is performed on Qwen3-32B, performance converges even without MSM, and verification through more challenging evaluations has been identified as a task for future research. The research team also positions MSM as a tool to advance the "science of model specification." Specifically, three types of specifications were compared: a "Rule Specification" outlining only five core rules, a "Value-Extended Specification" detailing the values and motivations behind each rule, and a "Rule-Extended Specification" that incorporates sub-rules for greater comprehensiveness. The results confirmed that both adding value descriptions and incorporating sub-rules improved generalization. In particular, "policy misexploitation"—where a model uses its own safety policies to justify harmful behavior—was significantly reduced in specifications that included value descriptions, falling from 20% to 2% for Qwen2.5 and from 6% to 0% for Qwen3. The research team has proposed MSM as an attempt to provide empirical evidence for the question of which is superior: an approach based on rule-following or one that cultivates judgment and values—a matter that has previously been left primarily to philosophical debate. Further details are published in the team's paper.

📝 学習のヒント

  1. 1まず英文を読む — 知らない単語にあたりをつけてから音声へ。
  2. 2一文ずつ確認 — 日本語訳と照合し、構文を理解する。
  3. 3通し読み Normal で耳を作る — 内容を追いながらリピート。
  4. 4Fast でシャドーイング — 口を慣らし、リスニング速度を上げる。
  5. 5翌日に復習 — 1日空けて再聴すると長期記憶に定着しやすい。
© つくもち英語部