CloudflareがPerplexityをブロック ステルスクロール対策を強化

ニュース
スポンサーリンク

 

画像:Cloudflare

Cloudflareは、Perplexityが未宣言のクローラーとIPアドレスを用いて、人間を装ってWebサイトをクロールしていると発表しました。

Cloudflareは、Perplexityのクローラーを検証済みボットのリストから除外するとともに、Perplexityの“ステルスクローラー”をブロックするルールを追加したとのことです。

Perplexityがステルスクローリングしていると判明

Cloudflareによると、Perplexityはまず宣言済みのユーザーエージェントでクロールしますが、ネットワークブロックに遭遇すると、ブロックを回避しようと試みます。

Perplexityは、ユーザーエージェントを繰り返し変更し、ソースASNを変更してクローリング活動を隠すとともに、robots.txtファイルを無視したり、そもそも取得すらしないとのことです。

Cloudflareは、Perplexityを検証済みボットのリストから除外し、ステルスクローリングをブロックするマネージドルールにヒューリスティックを追加しました。

Perplexityがステルスクローリングしている事実は、Perplexityのクロールをrobots.txtで拒否したうえで、宣言済みクローラーのPerplexityBotとPerplexity-UserをWAFルールでブロックしていたCloudflareの顧客が、Perplexityが依然としてコンテンツにアクセスしていることに気づき発覚しました。

Cloudflareが複数のテストドメインで実験したところ、Perplexityは宣言済みユーザーエージェントだけでなく、macOS版のGoogle Chromeのユーザーエージェントも使用してアクセスを試みていました。

Perplexityの未宣言クローラーは、Perplexityの公式IPレンジに含まれない複数のIPアドレスをローテーションしたり、異なるASNを使ったりしていました。

こうした活動は、数万のドメインと1日あたり数百万のリクエストにわたって観測されたとのことです。

Perplexityとは対照的に、OpenAIはrobots.txtを尊重しており、ChatGPT agentは新たに提案されたオープンスタンダードのWeb Bot AuthでHTTPリクエストに署名しています。

さらに、OpenAIのクローラーは、Cloudflareがrobots.txtからdisallowディレクティブを削除してブロックページを提示した場合でも、robots.txtでブロックした場合と同様にクロールを停止しました。

CloudflareがPerplexityのステルスクローラーをブロック

Cloudflareは、機械学習とネットワークシグナルの組み合わせを用いて、Perplexityのステルスクローラーのフィンガープリントを作成しました。

これにより、Perplexityの未宣言のクロール活動は、Cloudflareのボット管理システムによってボットと判定され、マネージドチャレンジでブロックされたとのことです。

すでにブロックルールやチャレンジルールを設定している利用者は保護されており、トラフィックをブロックしたくない場合は、チャレンジを設定することで実際の人間のみが先へ進めるようにできます。

さらに、Cloudflareは、AIクロール活動をブロックするマネージドルールにステルスクローラのシグネチャマッチを追加しました。

Cloduflareは7月に「Content Independence Day」を宣言し、同社の新規顧客に対してAIクローラーをデフォルトでブロックするようにしています。なお、既存の顧客は手動で設定が必要です。

参考リンク

この記事を書いた人
YUUGA TAMEKUNI

当サイトは、デジタル広告技術(アドテク)やWeb開発といった「技術(Tech)」と、社会保障や日々の暮らしといった「生活(Life)」を繋ぐメディアとして運営しています。「複雑な仕組みを、解りやすく、そして実用的に」をコンセプトに、専門性の高い情報から日常の知恵まで幅広く発信しています。

YUUGA TAMEKUNIをフォローする
タイトルとURLをコピーしました