「強すぎて公開できない」——AnthropicがAIを封印し、防御連合を作った理由

3行まとめ

AnthropicのAIモデル「Claude Mythos Preview」が、主要OSやブラウザの脆弱性を自律的に発見・悪用できることが判明。危険すぎるとして一般公開を凍結した。
攻撃より先に守るため、AWS・Apple・Google・Microsoftなど11社と防御連合「Project Glasswing」を発足。最大1億ドルのモデル使用クレジットを拠出する。
「AIが強くなりすぎた結果、管理者自身が公開をためらう」という前例のない事態が、サイバーセキュリティの歴史的転換点として注目されている。

そもそも何が起きているのか——3行では伝わらない話

「強すぎて公開できないAI」というのは、どういう意味だろうか。

ふつうAIモデルは、開発が終われば順次公開される。多少のリスクがあっても、用途制限や安全フィルターを設けることで対処するのが業界の慣行だ。しかしAnthropicは今回、そのセオリーを破った。

理由はシンプルだ。このモデルが持つサイバー攻撃能力が、フィルターで制御できる範囲を超えている、と判断したからだ。セキュリティ研究者が数ヶ月かけて探す脆弱性を、このモデルは数時間〜数日で自律的に見つけ出し、さらに実際に動作する攻撃コードまで生成できる。これが悪意ある者の手に渡れば、国家規模のサイバー攻撃が格段に容易になる。

しかし「公開しない」だけでは問題は解決しない。脆弱性は今もシステムの中に潜んでいる。攻撃者が同等の能力を手にする前に、防御側がそれらを塞いでしまう必要がある。そのために組まれたのが、今回の防御連合「Project Glasswing」だ。

何が起きたか

2026年4月7日、Anthropicは自社の新フロンティアモデル「Claude Mythos Preview」の技術評価書を公開した。1ヶ月間の内部テストで明らかになった内容は、業界に衝撃を与えた。

このモデルは、すべての主要OSおよび主要ブラウザにまたがるゼロデイ脆弱性（未知の欠陥）を自律的に発見し、実際に動作するエクスプロイト（攻撃コード）を生成できる。具体的な事例として、次の3件が公開されている。

OpenBSDの27年前の脆弱性：TCP通信を利用して任意のホストをリモートクラッシュできるバグ。総コスト2万ドル以下で特定。
FFmpegの16年間未発見の脆弱性：既存の自動スキャンツールが500万回テストしても検出できなかったもの。
Linuxカーネルでの権限昇格チェーン攻撃：一般ユーザーからroot権限を奪取する複数の脆弱性を連鎖させた手法。

性能指標として、サイバーセキュリティベンチマーク「CyberGym」でのスコアは83.1%。前世代モデルのClaude Opus 4.6（66.6%）から大幅に向上している。

注目すべきは、この能力が 意図して訓練した結果ではない という点だ。Anthropicは「コーディング・推論・自律性の全般的な向上の副産物として出現した」と説明している。つまり、モデルを賢くすれば賢くするほど、攻撃能力も自然についてくる、ということだ。これが今後のAI開発全体に突きつける問いは重い。

Project Glasswingの仕組みと規模

Project Glasswingは、Mythos Previewを「防御側だけに使わせる」という形で、攻撃と防御の非対称性を一時的に作り出す試みだ。名称はガラス翅の蝶（Glasswing butterfly）に由来し、「見えにくい脆弱性を可視化する」という意図が込められている。

ローンチパートナー（12組織）は以下の通り：

Amazon Web Services、Anthropic、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks

これらの組織はMythos Previewを使い、自社のシステムおよびオープンソースソフトウェアの脆弱性をスキャン・修正する。さらに重要インフラを担う40以上の追加組織にもアクセスが拡張されており、オープンソースメンテナは「Claude for Open Source」プログラムから申請できる。

Anthropicのコミットメントは金銭面でも具体的だ。モデル使用クレジットとして 最大1億ドル を拠出するほか、Linux Foundation経由でAlpha-Omega・OpenSSFに250万ドル、Apache Software Foundationに150万ドルの現金寄付も行う。

発見された脆弱性と修正事例は 90日以内に公開レポート としてまとめ、業界全体に共有される予定だ。「防御側だけが先に知っている」状態を一定期間保ちつつ、最終的には知見を開放するという二段階の設計になっている。

なぜ今なのか（背景）

この動きが2026年4月に起きた背景には、業界全体での認識変化がある。

OpenAIは2025年12月の時点で「次世代モデルはサイバーセキュリティリスクが高い」と自社評価書に記している。Anthropicのセキュリティ研究者は以前から、AIモデルの推論能力が一定水準を超えると、脆弱性発見の自動化が質的に変わると警告していた。その閾値に、今回のMythos Previewが到達した、というのが今回の発表の本質だ。

また、同じ週にOpenAI・Anthropic・Googleが、中国AIスタートアップによるモデル蒸留攻撃（自社モデルの能力を違法にコピーする手口）への対抗として、Frontier Model Forum経由での情報共有を開始している。外部からの脅威がAI企業間の協調を後押しした側面もある。

業界への影響と懸念点

防御優位性はどれくらい続くか、という点には懐疑論もある。Palo Alto Networksの幹部を含む複数の専門家が「競合モデルが同等能力に達するまで数週間〜数ヶ月」と見ており、Glasswingが作り出すアドバンテージは時間的に限られているという指摘がある。

OpenAIの動向も注目されている。Anthropicの発表から2日後の4月9日、OpenAIが独自のサイバーセキュリティ特化プログラム「Trusted Access for Cyber」に新モデルを追加することが報じられた。Project Glasswingのような大規模連合ではなく、既存の招待制プログラムを拡充する形だが、「防御側限定・非公開」という戦略の方向性は一致している。

「PR目的の誇張では」 という声も一部にある。Anthropicが発表のタイミングをIPO準備（2026年10月が観測されている）と重ねていること、パートナー企業のコメントが軒並み好意的すぎること——これらを根拠に懐疑的な見方をするメディアもある。90日後の公開レポートが出たとき、実際にどれだけの脆弱性が修正されたかが、信頼性の試金石になる。

日本にとって無縁ではない。Linux FoundationがパートナーであることはLinuxカーネル・Apacheサーバーなど広く使われているオープンソースソフトウェアへの直接介入を意味する。国内の政府・金融・インフラ系システムがこれらに依存していることを考えると、Glasswingが塞ぐ穴は日本のサイバー空間にも関係する。

まとめ

Project Glasswingは「AIが強くなりすぎた結果、作った側が公開をためらう」という、業界初の事例として記録されるだろう。それ自体が、AI能力の到達点を示すシグナルだ。

より根本的な問いも残る。「防御側が先に使う」という戦略が成立するのは、攻撃側が同等モデルを持っていない間だけだ。国家主導のサイバー攻撃グループや、モデルの蒸留・複製を試みる勢力が同水準の能力を持ったとき、この非対称性は消える。Glasswingが示すのは解決策というより、次の時代への入り口だ。

参考：Anthropic公式 Project Glasswing（2026年4月7日）、Anthropic Frontier Red Teamブログ（2026年4月7日）、Help Net Security（2026年4月8日）、NBC News（2026年4月8日）、VentureBeat（2026年4月7日）、Axios（2026年4月9日）、TechCrunch（2026年4月7日）、CNN Business（2026年4月7日）

「強すぎて公開できない」——AnthropicがAIを封印し、防御連合を作った理由

3行まとめ

そもそも何が起きているのか——3行では伝わらない話

何が起きたか

Project Glasswingの仕組みと規模

なぜ今なのか（背景）

業界への影響と懸念点

まとめ

No comments yet

Continue reading

AIが「攻撃力」「広告力」「マルチモーダル」を手に入れた週——2026年4月第2週 AI業界まとめ

世界2500万件のデータが検索できる——Googleのデータセット専用エンジン「Dataset Search」入門

Google Gemma 4 登場——ローカルで動く、本格マルチモーダルAIの新基準