前のsloppy forkの続きってわけじゃないけど、現状の生成AIによるコード生成とその盛り上がりは、ギャンブルとギャンブルから来る高揚感と同じではないか、というコラムが面白かった。

But this doesn’t really resemble coding. An act that requires a lot of thinking and writing long detailed code. Both parts are technically here, but the first isn’t essential (you can easily offload it to the AI) and the second can be minimal.

But it does perfectly map onto the tech industries favorite mechanic, Gambling! It’s just gambling, just pulling a slot machine with a custom message. We’ve been pulling to refresh for years and having more and more of the economy resemble gambling by the day. Now we turned the infinity machine, the truly “general intelligence” into a gambling machine. Great job!

(ただれはもはや「コーディング」とは言えません。コーディングには深い思考と詳細なコード記述が必要不可欠ですが、このプロセスの両方の要素は確かに存在します。ただし最初の要素(思考作業)は必ずしも重要ではなく(AIに容易に委譲可能)、二つ目の要素(コード記述)も最小限で済みます。むしろ、これはまさにテクノロジー業界が最も好むメカニズム――「ギャンブル」と完全に一致しています! これは単なるギャンブルであり、カスタムメッセージ付きのスロットマシンを回しているに過ぎません。私たちは長年にわたって「更新」ボタンを押し続け、経済全体が日々ギャンブル化していくのを目の当たりにしてきました。 私たちは今や、「真の汎用人工知能」である無限生成マシンを、ギャンブルマシンへと変貌させてしまいました。素晴らしい成果です!)

確率的に生成されるコードが望むものになるまで生成させ続けるギャンブル。ギャンブルなので回し続けるという中毒性がある。なかなか面白い喩え。

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

先日アリババより、保守性を意識したベンチマーク、SWE-CIが公開されていた。これまでのSWE系ベンチマークが単一の改修タスクに対する評価だったのに対し、過去の履歴や全体構成を考慮した改修提案ができているかを評価するベンチマークデータセット。

このデータセットも興味深いけど、このデータセットを使って18のモデルに対してテストしたところ、ほぼ全てのモデルがデグレする改修を提案する、つまり長期的なタスクにはまだまだ対応できていない、という洞察が面白い。

結局、コード生成による出力の量 > 人間が理解できるコード量、という状況を変えるものではないが、コードの正しさに保守性という指標を入れようとする試みは、今後のSloppy AIに対する1つの改善策であるように思う。