Claude Sonnet 4.5でLLMシステムが壊れた事例から学ぶ「Evals-as-Specification」とは
月に数百件のレポートを生成していた本番LLMシステムが、Claude Sonnet 4.5へのアップグレードで破綻。プロンプトの曖昧さが露呈し、評価スイートを仕様書として扱う新しい開発規律の必要性が浮き彫りになりました。
月に数百件のレポートを生成していた本番LLMシステムが、Claude Sonnet 4.5へのアップグレードで破綻。プロンプトの曖昧さが露呈し、評価スイートを仕様書として扱う新しい開発規律の必要性が浮き彫りになりました。