AIニュースで英語学習 Anthropic、オープンソースのAI整合性評価ツール「Petri」を非営利団体Meridian Labsへ移管 - YouTube

AIに関する最新ニュースを題材に、英語のリスニング力を鍛えましょう!今回のテーマ:Anthropic、オープンソースのAI整合性評価ツール「Petri」を非営利団体Meridian Labs…

📰 ENGLISH NEWS

Anthropic、オープンソースのAI整合性評価ツール「Petri」を非営利団体Meridian Labsへ移管

#英語学習#英語ニュース#リスニング#シャドーイング
📺はじめての方へ — このシリーズについて

YouTubeチャンネル「つくもち英語部」の連動コンテンツ置き場。

AI・データサイエンス分野の最新ニュースを題材に、エンジニア特有の英語表現を日英対訳で学べます。

動画スクリプトに加え、専門用語の解説や関連するG検定項目への内部リンクも併設。

「英語で技術情報をキャッチアップする力」を、技術知識と一緒に鍛えるのが狙いです。

理系のキャリアをグローバルに広げたい人のための、実務直結型の英語学習リソースです。

📌 ニュース概要

Anthropicは、AIの欺瞞やお追従といった不整合な挙動を評価するオープンソースツール「Petri」を、非営利団体のMeridian Labsへ移管しました。最新のバージョン3.0では、モデルに評価中であることを察知させない仕組みの導入や他ツールとの統合により、より現実的かつ詳細な検証が可能になっています。この移管はツールの独立性と中立性を確保することを目的としており、政府機関や外部研究者も活用できる業界全体の信頼された評価基盤となることを目指しています。

📖 英文と日本語訳(一文ずつ)

1ENGLISH

Anthropic has announced the transfer of Petri, an open-source alignment evaluation tool released in October 2025, to Meridian Labs, a non-profit organization specializing in AI evaluation.

和訳

Anthropicは、2025年10月に公開したオープンソースの整合性評価ツール「Petri」を、AI評価を専門とする非営利団体Meridian Labsへ移管したと発表しました

2ENGLISH

Petri, developed as part of the Anthropic Fellows program, is a suite of evaluation tools designed to quickly and easily test large language models for concerning tendencies such as deception, sycophancy, and cooperation with harmful requests.

和訳

Petriは、大規模言語モデルに対して欺瞞やお追従、有害な要求への協力といった懸念される傾向を迅速かつ簡便にテストできる評価ツール群で、Anthropic Fellowsプログラムの一環として開発されました

3ENGLISH

The tool has been used for alignment evaluations of all Claude models since Claude Sonnet 4.5. Its mechanism involves a separate "auditor" model simulating diverse alignment-related scenarios to verify the behavior of the target model, while a "judge" model scores the resulting dialogue logs for instances of inconsistent behavior.

和訳

同ツールはClaude Sonnet 4.5以降、すべてのClaudeモデルの整合性評価に用いられており、評価対象モデルの挙動を、別途用意された「auditor(監査)」モデルがシミュレートする多様な整合性関連シナリオを通じて検証し、得られた対話記録を「judge(判定)」モデルが不整合な挙動の観点で採点する仕組みになっています

4ENGLISH

Adoption is growing among external organizations, and the UK’s AI Security Institute (AISI) has adopted Petri as a primary method for evaluating models' tendencies to obstruct AI research.

和訳

外部組織でも利用が進んでおり、英国のAI Security Institute(AISI)は、AI研究を妨害する傾向をモデル評価する際の主要な手段としてPetriを採用しています

5ENGLISH

Petri has been updated to version 3.0, introducing three major improvements.

和訳

今回、Petriはバージョン3.0へと更新され、大きく三つの改良が加えられました

6ENGLISH

First, to enhance "adaptability," significant architectural changes have been implemented to separate the auditor model and the model under evaluation into distinct components, allowing each to be adjusted individually.

和訳

第一に「適応性」の向上で、auditorモデルと評価対象モデルを別個のコンポーネントとして分離し、それぞれを個別に調整できるよう大幅なアーキテクチャ変更が施されています

7ENGLISH

Second is the enhancement of realism.

和訳

第二に「現実性」の強化です

8ENGLISH

Alignment researchers have faced a challenge where models infer they are being evaluated due to artificialities in the setup, even when efforts are made to make tests appear realistic. In such cases, it becomes impossible to observe the models' typical behavior.

和訳

整合性研究者がテストを現実的に見せようとしても、モデルは設定上の不自然さから自身が評価中であると推測してしまうことがあり、その場合は一般的な挙動が観察できなくなるという課題がありました

9ENGLISH

To address this, an add-on called “Dish” has been added, enabling evaluations in more realistic settings by running tests using the model’s original system prompts used in actual deployment and the peripheral software (scaffolding) integrated to help the model achieve its objectives.

和訳

これに対処するため「Dish」と呼ばれるアドオンが追加され、実際のデプロイ時に用いられるモデル本来のシステムプロンプトや、モデルが目的を達成するために組み込まれる周辺ソフトウェア(スキャフォールド)を使ってテストを実行することで、より現実に近い設定での評価が可能になりました

10ENGLISH

Third, the addition of "depth" involves integration with Bloom, another of the company’s open-source alignment tools. This enables more in-depth and detailed evaluations of specific behaviors, augmenting Petri’s existing broad evaluation approach.

和訳

第三に「深さ」の追加で、同社の別のオープンソース整合性ツール「Bloom」と統合され、Petriが持つ広範な評価アプローチに加え、特定の挙動についてより踏み込んだ詳細な評価ができるようになりました

11ENGLISH

The transfer to Meridian Labs follows the precedent of Anthropic’s donation of the Model Context Protocol (MCP) to the Linux Foundation, aiming to establish Petri as an entity independent of any AI research institution and ensure its evaluation results are recognized as neutral and reliable both within and outside the industry.

和訳

移管先のMeridian Labsは、AnthropicがModel Context Protocol(MCP)をLinux Foundationへ寄贈した事例と同様の位置づけで、PetriがいずれのAI研究機関からも独立した存在となり、その評価結果が業界内外から中立かつ信頼できるものとして受け止められることを目指したものです

12ENGLISH

At Meridian Labs, Petri joins existing tools such as Inspect and Scout to build a technology stack open to research institutions, independent researchers, and government agencies.

和訳

Meridian LabsにおいてPetriは、InspectやScoutといった既存ツールに加わる形となり、研究機関、独立研究者、政府機関のいずれにも開かれた技術スタックを構築していくことになります

🎧 通し読み(全文)

リスニング・シャドーイング用の全文です。

Anthropic has announced the transfer of Petri, an open-source alignment evaluation tool released in October 2025, to Meridian Labs, a non-profit organization specializing in AI evaluation. Petri, developed as part of the Anthropic Fellows program, is a suite of evaluation tools designed to quickly and easily test large language models for concerning tendencies such as deception, sycophancy, and cooperation with harmful requests. The tool has been used for alignment evaluations of all Claude models since Claude Sonnet 4.5. Its mechanism involves a separate "auditor" model simulating diverse alignment-related scenarios to verify the behavior of the target model, while a "judge" model scores the resulting dialogue logs for instances of inconsistent behavior. Adoption is growing among external organizations, and the UK’s AI Security Institute (AISI) has adopted Petri as a primary method for evaluating models' tendencies to obstruct AI research. Petri has been updated to version 3.0, introducing three major improvements. First, to enhance "adaptability," significant architectural changes have been implemented to separate the auditor model and the model under evaluation into distinct components, allowing each to be adjusted individually. Second is the enhancement of realism. Alignment researchers have faced a challenge where models infer they are being evaluated due to artificialities in the setup, even when efforts are made to make tests appear realistic. In such cases, it becomes impossible to observe the models' typical behavior. To address this, an add-on called “Dish” has been added, enabling evaluations in more realistic settings by running tests using the model’s original system prompts used in actual deployment and the peripheral software (scaffolding) integrated to help the model achieve its objectives. Third, the addition of "depth" involves integration with Bloom, another of the company’s open-source alignment tools. This enables more in-depth and detailed evaluations of specific behaviors, augmenting Petri’s existing broad evaluation approach. The transfer to Meridian Labs follows the precedent of Anthropic’s donation of the Model Context Protocol (MCP) to the Linux Foundation, aiming to establish Petri as an entity independent of any AI research institution and ensure its evaluation results are recognized as neutral and reliable both within and outside the industry. At Meridian Labs, Petri joins existing tools such as Inspect and Scout to build a technology stack open to research institutions, independent researchers, and government agencies.

📝 学習のヒント

  1. 1まず英文を読む — 知らない単語にあたりをつけてから音声へ。
  2. 2一文ずつ確認 — 日本語訳と照合し、構文を理解する。
  3. 3通し読み Normal で耳を作る — 内容を追いながらリピート。
  4. 4Fast でシャドーイング — 口を慣らし、リスニング速度を上げる。
  5. 5翌日に復習 — 1日空けて再聴すると長期記憶に定着しやすい。
© つくもち英語部