PerplexityがBBCなどから、コンテンツの無断収集に対する法的措置を警告されている12。昨日は読売新聞も提訴したとの報道3。Perplexityは以前より、robot.txtに従わないグレーなデータ収集をしているのではないか、と噂されていたが、Cloudflareが解析結果を公開していた。結論から言うと、かなり黒。

  • ユーザーエージェント(UA)や自律システム番号(ASN)の変更などでクローラーの身元を隠ぺい
  • robot.txtを意図的に無視

といった挙動が確認できたので、Perplexityのクローラーを認証済botのリストから削除した、とのこと。

どうやって分かったのか?

Cloudflareは testexample.comsecretexample.com と同等のダミーサイトを作り、botアクセスを禁止するrobot.txtを設定したにも関わらず、Ahtropicにこのドメインについて問い合わせると、ダミーサイトのコンテンツを回答することを確認。そこでPerplexityのbotを解析したところ、ブロックされたときにUAを切り替えて再アクセスしたり、公式に公開しているのとは別のIPアドレスでローテーションしたり、ブロック回避のためのASNを切り替えたりする挙動が確認できた。こうした行為は日々数百万件のリクエストで観測されるが、リクエストデータと機械学習によって、Perplexity botを特定した、とのこと。

This activity was observed across tens of thousands of domains and millions of requests per day. We were able to fingerprint this crawler using a combination of machine learning and network signals.

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Anthropic側はクローラーではなくエージェントとしての振る舞いの一部、と主張している4が、それはかなり苦しいのではないか。