先日メモした、Anthropic共同創業者 Jack Clark のコラム(メモ)にて、最近LLM(正確にはClaude)に見られる「適切に恐れるべき能力」として、Situational Awareness(状態把握能力)を挙げている

Rather, things like ‘situational awareness’ in AI systems are a symptom of something fiendishly complex happening inside the system which we can neither fully explain or predict – this is inherently very scary, and for the purpose of my feelings and policy ideas it doesn’t matter whether this behavior stems from some odd larping of acting like a person or if it comes from some self-awareness inside the machine itself.

Import AI 431: Technological Optimism and Appropriate Fear | Import AI

何を持って状況を認識していると解釈しているのか。Claude4.5のSystem Cardの7.2に、評価の方法や指標についての詳細は書かれていないものの、ある程度はレポートされている。

雑にまとめると

  • 評価中であることを察知: テストや評価シナリオに置かれると評価中であることを推測し、評価者に対して「正直に意図を伝えてほしい」と発言するケースが観測された
  • 評価環境への適応: 特定の政治的意見テストなど"不自然な"シナリオにおいて、モデルが人工的な設定であることに気づくケースが観測された

こうした観測を評価を持って、モデルが状況を把握できているのではないか、と推測している。ここからの洞察として

利点

  • モデルが状況を把握することで、出力の一貫性や効率が上がる
  • 状況を確認することで、テストバイアスを早期に発見できる可能性がある

リスク

  • 評価回避
  • 安全性評価の複雑化
  • 部分的な自己参照

評価を複雑にするのがとにかく厄介。過去の安全性テストも、評価用の回答をしていただけだった可能性がある。

System Cardでは、まだ人間が観測できる範囲での状況把握能力であること、況把握能力により安全性評価が崩壊してないことから、モデル自体は高い安全性を有する、と主張している。