AIなどの技術進歩による効果が統計に現れるののには時間がかかる。ソローのパラドックスの1つ仮説(メモ)。では生産性以外に何か指標はあるのかと調べたら、意思決定の質、という点に着目した理論モデルを提案している論文があった1。未査読の論文(Unpublished paper)ではある

AI and Task Efficiency

多くのタスクは問題解決であり、その解決はシグナルに依存し、AIがそのシグナルの精度を高めることで、ヒトはより良い意思決定ができる。これによる波及効果をのいくつかを、モデリングした式をもとにシミュレーションしている。

エージェントのスキル \(y\) は既知のパラーメータ \(A\) から未知のパラメータ \(\theta\) を引いたものとする。ここで意思決定 \(x\) を考慮し、\(y=A-(\theta-x)^2\) とする。この \(\theta\) に シグナル \(s_i\) を導入しつつ、\(y\) をモデリングする。\(y\) は \(s_i\) の精度改善価値が高ければ高いほど、高スキルへの恩恵が大きい。つまり、格差縮小にも、格差拡大にも作用し得る。

他、AIのシグナルの精度を上げることでIPOにおいてより早く正しい判断に到達できることや、AIによる問題の難易度の並べ替えによりマネージャーの担当できる範囲が拡大することなどをシミュレーションしている。シグナルの精度向上が、人的資本の成長につながる、と結論づけている。

Vending-Bench

ちなみに、自動販売機販売シミュレーション、というベンチマークを行い、長期的かつ一貫した意思決定ができるかどうかを実験した論文がある2

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
While Large Language Models (LLMs) can exhibit impressive proficiency in isolated, short-term tasks, they often fail to maintain coherent performance over longer time horizons. In this paper, we present Vending-Bench, a simulated environment designed to specifically test an LLM-based agent's ability to manage a straightforward, long-running business scenario: operating a vending machine. Agents must balance inventories, place orders, set prices, and handle daily fees - tasks that are each simple but collectively, over long horizons (>20M tokens per run) stress an LLM's capacity for sustained, coherent decision-making. Our experiments reveal high variance in performance across multiple LLMs: Claude 3.5 Sonnet and o3-mini manage the machine well in most runs and turn a profit, but all models have runs that derail, either through misinterpreting delivery schedules, forgetting orders, or descending into tangential "meltdown" loops from which they rarely recover. We find no clear correlation between failures and the point at which the model's context window becomes full, suggesting that these breakdowns do not stem from memory limits. Apart from highlighting the high variance in performance over long time horizons, Vending-Bench also tests models' ability to acquire capital, a necessity in many hypothetical dangerous AI scenarios. We hope the benchmark can help in preparing for the advent of stronger AI systems.
 arxiv.org

エージェントは在庫管理、発注と納品スケジュール管理、売価の決定、日々のコスト、売り上げの監視、在庫管理、などの意思決定を自律して行う。1回のタスクは20Mトークン。

この論文の結論は、AIエージェントの長期的一貫性に関しては、(論文投稿時点では)まだ課題がある、というものだが、Sonnetは部分的にヒトを超えており今後改善の可能性は感じる。


  1. AIとタスクの効率性 - himaginary’s diary < こちらのブログから知った ↩︎

  2. AI’s Next Challenge: Take the CEO’s Job - WSJ にて紹介されていた。 ↩︎