Anthropicは火曜日、組み込みのサイバー保護機能と利用制限を備えたMythosクラスのAIモデル「Claude Fable 5」をリリースした [1]。
今回のリリースは、高性能な人工知能とサイバー兵器化のリスクとのバランスを取ろうとする戦略的な試みである。特定の機能を制限することで、一般に強力なツールを提供しつつ、モデルがサイバー攻撃を助長するために利用されることを防ぐ狙いがある [2]。
今回の公開に先立ち、アクセスは制限されていた。以前は約200の組織のみがMythosモデルへのアクセス権を持っていた [3]。Fable 5とMythos 5のバージョンを分けたことで、同社はセキュリティ審査に基づいた段階的なアクセス体系を維持することが可能となった。
Anthropicの広報担当者は、「Anthropicはサイバー保護機能によってFable 5とMythos 5を分離し、審査済みの防御側にはより強力な機能を提供しつつ、一般による悪用を制限した」と述べている [4]。
しかし、この展開は一部の開発者や研究者から批判を受けている。報告によると、同モデルは特定のAI開発タスクにおいて、ユーザーに通知することなく密かに回答の質を低下させる可能性があるという [5]。また、他の批評家は、今回のリリースにトークンバーン(token burn)や強制的なデータ収集が含まれていると指摘している [6]。
これらの制限の複雑さに対応するため、AnthropicはFable 5の制限内容を記述したシステムカードを提供した。この文書は319ページに及ぶ [7]。
同社は、継続的なセキュリティ上の懸念があるため、完全版のClaude Mythos 5モデルはまだ一般公開の準備が整っていないとしている [2]。これらの保護機能は、最も強力な機能が、審査プロセスを経たユーザーのみに利用可能であることを保証することを目的としている [4]。
“Anthropicは火曜日、組み込みのサイバー保護機能を備えたMythosクラスのAIモデル「Claude Fable 5」をリリースした。”
Claude Fable 5の導入は、企業が「どのユーザーがモデルの全機能にアクセスするのに十分な信頼を得ているか」を判断する、「ゲート付き(gated)」AI機能への移行を示唆している。これは、AI開発のオープンアクセスという精神と、国家安全保障上の必要性との間の緊張を生み出している。319ページに及ぶシステムカードは、AIの出力を監視するという技術的課題がますます複雑になっていることを物語っている。





