Anthropicは2024年9月9日、新しいAIモデル「Claude Feibel 5」をリリースした [1]。
今回のリリースは、米国を拠点とする同社が高性能モデルを一般に公開した初めての事例となる。この動きにより、より幅広いユーザーが高度なAI機能を利用できるようになると同時に、オープンアクセスに伴うリスクを管理する同社の能力を検証することになる。
同社のデータによると、Claude Feibel 5は、未リリースのままとなっているClaude Mythosモデルと同等の性能を提供している [2]。この格差を埋めることで、Anthropicは内部の研究パイプラインの安定性を損なうことなく、最先端の有用性を一般公開することを目指している。
技術の悪用を防ぐため、Anthropicは特定のセキュリティ対策を導入した [1]。このシステムは、サイバー攻撃や生物・化学兵器の製造に関連するクエリを識別するように設計されている。モデルがそのようなプロンプトを検出した場合、クエリはより性能の低いモデルへとルーティングされる [1]。
このルーティングメカニズムにより、AIの最も高性能なバージョンが危険な指示の生成に利用されることを防いでいる。リスクのあるリクエストを能力の低いシステムに転送することで、同社はモデルの一般的な有用性を維持しつつ、大規模な被害を及ぼす可能性を軽減しようとしている [1]。
サンフランシスコ・ベイエリアに本社を置くAnthropicは、モデルの透明性と安全性のバランスに引き続き注力している [1]。Claude Feibel 5の展開は、一般公開と壊滅的な悪用の防止という相反する課題に同社がどう対処するかを示すテストケースとなる [2]。
“Claude Feibel 5は、Claude Mythosモデルと同等の性能を提供している”
Claude Feibel 5のリリースは、Anthropicの戦略が一般公開へとシフトしていることを示している。「低性能モデルへの転送」というセキュリティアーキテクチャを実装することで、同社は、生産性向上に有用である一方で悪用されれば危険という「デュアルユース(軍民両用)」のジレンマを、技術を完全に封鎖することなく解決しようと試みている。



