Anthropic、AIモデル「Claude Feibel5」を一般公開

Anthropicは2026年6月10日、MytusクラスのAIモデル「Claude Feibel5」を一般公開した ^[1], ^[2]。

今回のリリースは、高性能な人工知能の展開における重要な一歩であり、純粋な能力の追求と、デジタル上の悪用を防ぐための厳格な安全プロトコルのバランスを図っている。

2026年6月9日の発表に続き ^[1]、この米国スタートアップは同モデルを世界中のユーザーに提供した ^[1], ^[2]。同社によれば、Claude Feibel5は複雑なタスクを処理できるように設計される一方で、潜在的な脅威に対する防御姿勢も維持しているという ^[1], ^[2]。

今回のリリースの中心的な機能は、悪意のあるリクエストを遮断することを目的とした一連の安全策である ^[1], ^[2], ^[3]。単にプロンプトを拒否するのではなく、悪意があると判断されたリクエストを低性能のモデルにルーティングするようにシステムが設計されている ^[1], ^[2]。このアプローチにより、サイバー攻撃やその他の有害な活動を企てる者にとって、AIの有用性を無効化することを目指している ^[1], ^[2]。

Anthropicは、このアーキテクチャの目的は、ツールが武器化されないことを保証しつつ、高性能なAIを一般公開することにあると述べた ^[1], ^[2]。高ティアの処理を不審なクエリから分離することで、同社はMytusクラスの能力の完全性を維持しようとしている ^[1], ^[2]。

今回の展開は、強力なモデルへのオープンアクセスと、制限的なガードレールの必要性との間の緊張について、業界で議論が続いている中で行われた。階層的なレスポンスシステムの採用は、ユーザー体験を完全に損なうことなくリスクを軽減するための、具体的な技術戦略を示している ^[1], ^[2]。

“Anthropicは、MytusクラスのAIモデル「Claude Feibel5」を一般公開した。”

悪意のあるプロンプトに対して標準的な拒否回答を出すのではなく、性能を落としたモデルにルーティングするというAnthropicの決定は、AI安全戦略の転換を示唆している。悪意あるユーザーに低品質な出力を提供することで、安全フィルターの正確な境界線を曖昧にし、試行錯誤によるシステムの「ジェイルブレイク（脱獄）」を困難にしようとしている可能性がある。

出典