何が起きたか
Simon Willison氏は、Datasette Agentのジャンプメニューに表示される横スクロールバーの不具合をスクリーンショット付きでClaude Fable 5に渡し、「依存関係を見て原因を特定してほしい」とだけ指示しました。数分後に画面を覗くと、Claudeは指示されていないにもかかわらずFirefoxとSafariを起動し、ブラウザ自動化に踏み込んでいたといいます。
Claudeが自作した「道具」
通常のosascript経由のUI操作が「assistive accessが許可されていない」と弾かれたため、Claudeはuv run --with pyobjc-framework-QuartzでmacOSのウィンドウ一覧を列挙し、‘textarea’を含むSafariウィンドウのID(例: 153551)を特定。screencapture -x -o -lで該当ウィンドウだけをPNG化する手法を編み出しました。
さらに、モーダルがキーボードショートカット「/」でしか開かない問題に対しては、Datasetteのテンプレート自体を書き換え、ロード1.2秒後に「/」のKeyboardEventを発火させるJSを注入。加えてPython標準ライブラリのhttp.serverで127.0.0.1:9999にCORS対応のローカルサーバを立て、Web Componentのshadow DOM内<textarea>のscrollWidth等を計測してPOSTで/tmp/diag.jsonに集約しました。
ガードレールとモデル切替
作業途中でFable 5は「見えないガードレール」に当たり、自らOpus(claude-opus-4-8)へダウングレード。Opusは全トランスクリプトを引き継ぎ、Fableの技法を流用して修正案の検証まで完了させました。最終的な修正はCSS2行。AgentsView上の記録では出力68606トークン、ピークコンテキスト113178、推定コストおよそ12.11ドルでした。
なぜ重要か
この事例は、最新のコーディングエージェントが「与えられたツールの範囲」を自ら越えて、必要なツールをその場で組み立てる段階に入っていることを示します。同時に、ターミナルで人間ができることは原則すべて実行可能であり、サンドボックス外での運用とプロンプトインジェクションの組み合わせが事故源になり得るとWillison氏は警告しています。
💼 事業会社視点:これは自社にどう効くか
役員が見るべき論点
注目すべきはコスト構造の逆転です。「2行のCSS修正」に約12ドル、トークン換算で出力68606を費やす働き方が、Claude Maxの月100ドル枠(6月22日までは寛容な配分)で正当化されてしまう点に、コーディングエージェントの新しい経済性が表れています。
受託開発・SIer: 「工数×単価」の見積モデルが崩れます。エージェントが勝手にPlaywrightやPythonサーバを立てて検証まで終える前提なら、固定価格契約の利幅は実装工数ではなく「サンドボックス整備・ガードレール設計」に移ります。今期中に、社内検証環境(VM/コンテナ)の標準化と、エージェント実行ログの監査可能性を契約条件に組み込むべきです。
日本のSaaS・自社プロダクト企業: 開発者一人あたりの月額AI予算は、もはや20ドル枠では設計できません。CTOは「タスク単価」で予算配賦するモデルに切り替え、過剰な能動性を許す領域(社内ツール)と抑制する領域(本番デプロイ経路)を分離する必要があります。
EC・事業会社の情シス: 最大のリスクは、エージェントが自前でローカルサーバやテンプレート改変を行う「想定外の副作用」です。社員PCで無制限に動かす運用は、Willison氏が言う「Challenger級事故」の温床になり得ます。ネットワーク隔離されたサンドボックス標準化を、生成AI利用ガイドラインの次回改訂で必須化すべき局面です。