プリンストン大の教授らによるAI Risk Management Should Incorporate Both Safety and Securityという論文をセキュリティの専門家に教えてもらった。生成AIに関する安全について、ひとくちに安全といっても様々な観点や思想がある中で、各方面の領域の人に敬意を払いつつ、今後どういう議論が必要か、そのの方向性を提示する一種のコラム。
端的にまとめると、SafetyとSecurityという2つの観点があれそれぞれに歴史があるが、AIに関しては、これらを統合(Holistic)したリスクフレームワークを考えていく必要があるので、専門家同士手を取り合いましょう、という話。
| 観点 | Safety | Security |
|---|---|---|
| 主な課題 | システムが 意図せず害を出さないこと | システムが 攻撃・悪用されないこと |
| 想定されるリスク | 偶発的エラー、モデル誤動作、誤用 | 悪意ある攻撃者による侵害・悪用 |
| モデル化例 | robustness(頑健性)、value alignment(価値整合性) | adversarial attacks(敵対的攻撃)、情報漏洩 |
| アプローチ | リスクの最小化 | 最大損失の最小化 |
| ガバナンス | 制御工学・安全工学・規格ベース | ITセキュリティ・サイバーセキュリティ |

イギリスのAISIではSafetyとSecurityについて、以下のような定義をしている。
AI safety: The understanding, prevention, and mitigation of harms from AI. These harms could be deliberate or accidental; caused to individuals, groups, organisations, nations or globally; and of many types, including but not limited to physical, psychological, social, or economic harms.
(AIシステムに起因する危害の理解、防止、および軽減を指します。これらの危害は意図的なものも偶発的なものも含み、個人、集団、組織、国家、あるいは世界的な規模で発生し得るものです。また、身体的・心理的・社会的・経済的被害など、多岐にわたる種類の影響が考えられます。)
AI security: Protecting AI models and systems containing AI components from attacks by malicious actors that may result in the disruption of, damage to, theft of, or unauthorised leaking of information about those systems and/or their related assets. This encompasses protecting AI systems from standard cybersecurity threats as well as those arising from novel vulnerabilities associated with AI workflows and supply chains (known as adversarial machine learning).
(AIコンポーネントを含むAIモデルやシステムを、悪意ある攻撃者による攻撃から保護することを指します。これにより、システム自体やその関連資産の機能停止、損傷、情報窃取、あるいは許可されていない情報漏洩などの被害を防ぐことを目的としています。 これには、従来のサイバーセキュリティ脅威からのAIシステム保護に加え、AIワークフローやサプライチェーンに特有の新規脆弱性(敵対的機械学習として知られる現象)に起因する脅威への対応も含まれます。)
Securityに関しては、悪意の有無をはっきりと明記しているが、Safetyについては意図的・偶発的両者を含むとしている。いずれにせよ、システム起因か攻撃者によるものか、という整理。

