生成AIの影響の測定

DeepLみたいな質の高い翻訳アプリが登場して以降、如実に英語力は落ちている気がする。だけじゃなくて、調べ物とかまとめとか壁打ちとか、そういうさまざまなところで生成AIを使うようになり、果たして頭使っているのやら。

マネージャー視点というか、これまでとは違うレイヤーで頭を使っているだけなのかもしれない(関連メモ)。

査読付は少ないものの、生成AIの利用が思考力や学習能力に与える影響を調査した研究がある。概ね、負の影響を指摘している。

The Impact of Generative AI on Critical Thinking: AI利用で批判的思考(Critical Thinking)の使用機会とその労力が減る、特に生成AIを信頼している人ほどその傾向が強い、というアンケート分析。生成AIの利用が自律的な問題解決能力を低下させるかもしれない、という考察
AI Tools in Society: AIツール利用者にアンケートおよびインタビューを実施し、ツール利用者と批判的思考に負の相関が起こっていることを分析。記憶や思考の一部を外部ツールに委ねる「認知的オフローディング」が仲介している。

いずれもアンケートなどの自己申告がベースではあるが、論理的思考能力を下げているのではないか、という考察はなんとなく、感覚と合っている。生成AIへの中立的な信頼が大事。これは相手がヒトであっても同じかもしれない。

How Do Programming Students Use Generative AI?: コーディング演習でChatGPTの使用を許可し観察したところ、普段から生成AIを利用する学生ほど、直接答えさせる・間違いを直させる、という非生産的な使い方をしていた。ジュニアプログラマーにおいては、主体性や生産性の低下を招いているのでは、という考察。

生産性について定量的な調査をした論文もある。

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity: Cursor Pro (Sonnet3.5/3.7)を使用し、体感として20%程の生産性向上につながったされたが、開発時間は19%程伸びていて、少なくとも開発にかかる時間という意味での生産性は、むしろ悪化した。著者らの考察では、経験者の暗黙知や文脈理解、巨大なコードベースの把握が難しいことや、コードレビューコストが上がっている点などを挙げている。

生成AI利用で当人が感じる効果と、実際のアウトプットや生産性は別の話。「生産性」をどう計測するか、という定義の話かもしれない。学習における生成AIの利用はもう止められない中で、従来の授業やその成績の付け方が合わなくなっているのかも。

まぁ使用者が満足しているのはそれはそれで重要なことだとは思う。

ついでに、生成AI利用のABテストを授業でやろうとしたうまくいかなかった、という報告

Impact of AI Tools on Learning Outcomes: ハンガリーコルヴィヌス大のオペレーションリサーチの授業で、授業と試験でAIツール使用許可と禁止の2つにランダムに分け、ツール利用の因果を調べようとしたところ、試験直前に、参加学生が、実験デザインに対して著しく不公平だとして抗議され、結果計画通りに実験できなかったレポート

事前に大学の倫理委員と相談し、学生にも目的を話していたのに、教育機関やメディアを巻き込んだ抗議となってしまったのは、この手の社会実験デザインの難しさが窺える。

実験研究での生成AI利用における注意ポイントを、シカゴ大の教授らがまとめていた。

以下のExperimental Problem 1と2を基本概念とし、12のベストプラクティスにまとめている。

この 3.3「参加者に対する追加的なリスクを慎重に検討し、生成AI使用に関する十分な説明と同意を得ることで、最高水準の倫理基準を確保すること」は言うほど簡単じゃない、と上のハンガリー大の顛末を見ながら思ったり。

社会実験全般に言えることなのかもしれないが、生成AIによる効果を測定するのは、技術的、統計的だけじゃなくて倫理的にも注意する必要、という学び