Claude Fable 5 性能検証
「Claude Fable 5」の性能が落ちた?提供停止前後で比べた結果──米AI企業2社がそれぞれ報告
7月1日に提供を再開したAnthropicのAIモデル「Claude Fable 5」。提供停止前後で性能に変化はあるのか。米AI企業2社がそれぞれ調査結果を報告しており、評価が分かれる結果となっている。
BridgeMind AIの報告:スコア低下を指摘
AIエージェントサービスを開発する米BridgeMind AIは7月2日、「Fable 5が弱体化して戻ってきた」と公式Xに投稿。同社のコーディング向けベンチマーク「BridgeBench」で以下のスコア低下を報告した。
| 項目 | 提供停止前 | 再開後 | 変化 |
|---|---|---|---|
| デバッグ性能 | 86.2 | 25.9 | ▲60.3減 |
| リファクタリング | 73.6 | 38.4 | ▲35.2減 |
| ハルシネーション対策 | 75.9 | 61.7 | ▲14.2減 |
同社はモデルそのものの性能は落ちていないものの、搭載された安全機能(分類器)の強化に伴い、コーディングタスクのスコアが低くなったと分析している。
Arena.aiの報告:性能はほぼ変わらず
一方、AIモデルの性能をユーザーが評価する「Arena」(旧LMArena)を運営するArena.aiは同日、Fable 5の性能は提供停止前後でほとんど変わっていないと報告した。数千件のユーザー評価を集計した結果、テキストや画像処理など複数の項目でおおむねスコアを維持しているという。
なお、Arena.aiは今回のスコアを暫定値としており、より多くのデータを集めて詳細な分析結果を公開する予定だ。
なぜ評価が分かれるのか
両社の報告が分かれる背景には、測定方法の違いがある。BridgeMind AIのBridgeBenchはコーディング特化のベンチマークであり、安全機能(分類器)の影響を強く受ける。一方、Arena.aiはユーザーによる総合評価であり、日常的な使用感に近い。
Anthropicは提供再開にあたり、脆弱性対応のために分類器をアップデートしたことを明らかにしている。この分類器は有害な出力をさせる指示を検知し、自動的により性能の低いAIモデルに引き継ぐ機能を持つ。アップデートに伴い、無害なリクエストを誤検出する頻度も増えたという。
Fable 5ユーザーへの影響
日常的なコーディングやデバッグ作業では、安全機能による誤検出の増加がパフォーマンス低下として感じられる可能性がある。特にコード生成やリファクタリングのタスクでは、以前と同じ指示でも異なる結果が返ってくるケースが増えるかもしれない。
一方、文章作成や分析、クリエイティブなタスクでは大きな変化は見られない。ユーザーは用途に応じて結果を判断し、必要に応じてプロンプトを調整することを検討してもよいだろう。