PerplexityがBBCなどから、コンテンツの無断収集に対する法的措置を警告されている12。昨日は読売新聞も提訴したとの報道3。Perplexityは以前より、robot.txtに従わないグレーなデータ収集をしているのではないか、と噂されていたが、Cloudflareが解析結果を公開していた。結論から言うと、かなり黒。
- ユーザーエージェント(UA)や自律システム番号(ASN)の変更などでクローラーの身元を隠ぺい
- robot.txtを意図的に無視
といった挙動が確認できたので、Perplexityのクローラーを認証済botのリストから削除した、とのこと。
どうやって分かったのか?
Cloudflareは testexample.com
や secretexample.com
と同等のダミーサイトを作り、botアクセスを禁止するrobot.txtを設定したにも関わらず、Ahtropicにこのドメインについて問い合わせると、ダミーサイトのコンテンツを回答することを確認。そこでPerplexityのbotを解析したところ、ブロックされたときにUAを切り替えて再アクセスしたり、公式に公開しているのとは別のIPアドレスでローテーションしたり、ブロック回避のためのASNを切り替えたりする挙動が確認できた。こうした行為は日々数百万件のリクエストで観測されるが、リクエストデータと機械学習によって、Perplexity botを特定した、とのこと。
This activity was observed across tens of thousands of domains and millions of requests per day. We were able to fingerprint this crawler using a combination of machine learning and network signals.
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
Anthropic側はクローラーではなくエージェントとしての振る舞いの一部、と主張している4が、それはかなり苦しいのではないか。