Anthropic AI Safety Level

AIの安全性に関する指標でASL-2とかそういう記述を見かけるようになってきた。Anthropicが提唱したもので、思ったよりも市民権を得ている。ASLはアメリカのバイオセーフティーレベルを参考にしたらしい。

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

Today, we’re publishing our Responsible Scaling Policy (RSP) – a series of technical and organizational protocols to help us manage the risks of developing increasingly capable AI systems. pic.twitter.com/Zc4dLh2yQ7
— Anthropic (@AnthropicAI) September 19, 2023


ASL-1	小規模で単純なAIモデル。基本的な安全チェックは行われているが、技術自体に壊滅的なリスクを起こす可能性は非常に低い
ASL-2	大規模で複雑なAIモデル。検索エンジン以上の情報は得られないが、責任ある使用を保証するために、より高度な安全プロトコルが必要となる。
ASL-3	複雑な問題解決が可能となっているモデル。低レベルの自律的能力を示す。誤用や暴走により意図しないリスクを引き起こす可能性があり、より厳格な安全対策・セキュリティ対策が不可欠。
ASL-4+	高度で自律的な領域にいるモデル。現在のシステムからかけ離れているためまだ定義されていない。AIが意図通りに動くことを保証するための何かしらの斬新な技術が必要だろう。

このAnthropicのRSPが公開された時点では、ほとんどのLLMがASL-2としている。Anthropic CEOのDario Amodei氏はインタビューにて、2025年は、LLMはASL-3への対応が必須となる段階まで進むと答えている。

安全性指標とは異なるが、DeepMindもOpenAIも、AIレベルをそれぞれ定義し評価している¹²