ステルス・クロール

PerplexityがBBCなどから、コンテンツの無断収集に対する法的措置を警告されている¹²。昨日は読売新聞も提訴したとの報道³。Perplexityは以前より、robot.txtに従わないグレーなデータ収集をしているのではないか、と噂されていたが、Cloudflareが解析結果を公開していた。結論から言うと、かなり黒。

Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.

blog.cloudflare.com

ユーザーエージェント（UA）や自律システム番号（ASN）の変更などでクローラーの身元を隠ぺい
robot.txtを意図的に無視

といった挙動が確認できたので、Perplexityのクローラーを認証済botのリストから削除した、とのこと。

どうやって分かったのか？

Cloudflareは testexample.com や secretexample.com と同等のダミーサイトを作り、botアクセスを禁止するrobot.txtを設定したにも関わらず、Ahtropicにこのドメインについて問い合わせると、ダミーサイトのコンテンツを回答することを確認。そこでPerplexityのbotを解析したところ、ブロックされたときにUAを切り替えて再アクセスしたり、公式に公開しているのとは別のIPアドレスでローテーションしたり、ブロック回避のためのASNを切り替えたりする挙動が確認できた。こうした行為は日々数百万件のリクエストで観測されるが、リクエストデータと機械学習によって、Perplexity botを特定した、とのこと。

This activity was observed across tens of thousands of domains and millions of requests per day. We were able to fingerprint this crawler using a combination of machine learning and network signals.
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

Anthropic側はクローラーではなくエージェントとしての振る舞いの一部、と主張している⁴が、それはかなり苦しいのではないか。

どうやって分かったのか？#

どうやって分かったのか？