ブロックされたウェブサイトを追跡するCloudflareの困惑の標的


インターネット検索
2025-08-17T13:36:43+02:00

最終更新日: 2025年08月08日
  • Cloudflareは、Perplexityがrobots.txtを回避し、宣言されていないユーザーエージェントとIPアドレスでクロール行為を隠蔽していると非難している。
  • 同社は、数万のドメインにわたって毎日 ASN の変更と数百万件のリクエストを観察していると主張している。
  • Perplexity は秘密裏に行われている行為を否定し、その方法論に疑問を呈し、その AI は従来のクローラーとは異なる動作をすると主張しています。
  • Cloudflare は Perplexity を検証済みボットとしてリストから削除し、AI トラッキングをデフォルトでブロックするルールを有効にします。

Cloudflareが警告を発した 報告書を発表することで AI搭載の回答エンジン「Perplexity」が障壁にもかかわらずウェブサイトをクロールし続けているとして非難 所有者によって設置された。インフラプロバイダーによると、このサービスは robots.txt は無視されました ネットワークブロックを回避して禁止されたコンテンツにアクセスできます。

AIがデータを貪り尽くしてモデルを訓練し、リアルタイムで反応する環境では、 革新とウェブエコシステムのルールの尊重のバランス緊張しているこの論争は、 不正なスクレイピング 大量のオンライン情報に基づいて製品を構築する人が遵守すべき技術的および倫理的制限。

Cloudflareの報告内容とその重要性

ネットワークセキュリティとパフォーマンスを提供する同社は、 顧客からの苦情 にもかかわらず、Perplexity のせいでアクセスを受け続けたサイトは、 robots.txtで禁止する そして、 ワフ 宣言したトラッカーをブロックするためだ。調査の結果、Cloudflareは次のようなパターンを検出したと主張している。 秘密追跡 ウェブサイト所有者の好みと互換性がありません。

サプライヤーは、この行動を観察したと主張している。数万のドメイン そして 毎日何百万ものリクエストこの本は、彼の意見によれば、偶発的な実践ではなく体系的な実践を示している。その結果、 検証済みボットのリストからPerplexityを削除しました ヒューリスティックスを活性化し、ルールを管理し、 このトラッキングをブロックする デフォルトです。

パープレキシティはどのようにして障壁を乗り越えたのか

Cloudflareによると、 宣言されたトラッカー (Perplexityのユーザーエージェント名で識別される)がクラッシュした場合、システムは ブラウザを偽装する 一般的であり、まるで macOS上のChrome 身元を隠すために 検出を避ける.

さらに、アクセス元は 非公開IP範囲 困惑と 頻繁に回転するフィルタリングが困難になる恐れがあった。Cloudflareはまた、 ASN(自律システム) リクエストの起源、もう一つの兆候 ブロック回避 ネットワーク。

研究によれば、観察された行動は パターンを尊重しない で説明した優れたクローラーの RFC 9309 「検証済みボット」ポリシーでは、アイデンティティの透明性(エージェント、IP、連絡先) 交通緩和明確な目的と robots.txtを尊重する すでにサイト所有者によって設定された制限です。

Cloudflareは、 「痕跡を残す」 このトラフィックに、 ネットワーク信号と機械学習、管理ルールに署名を追加して、このアクティビティを識別してブロックします。 無料プラン.

デコイドメインによるテストと結果

チームはその疑念を確かめるために 新規および未公開のドメイン (インデックス化も公開リンクもされていない)にポリシーを適用した robots.txtの全面禁止、そしてPerplexityボットを禁止するための具体的なルールも定められている。Cloudflareは、これらのサイトのAIに助言した結果、 答えを得た ホストされているコンテンツの詳細、それが正しければ、 障壁にもかかわらずアクセス.

ブロックが効力を発揮したとき、CloudflareはPerplexityのAIが 代替源に頼った 反応を構築するために、しかし 精度が低い 元の素材の特殊性がなく、 制限は効果があった.

パープレキシティの公式回答

困惑は、 彼は容疑を否認している。 秘密の追跡とCloudflareが 誤解された 分析された活動の一部である。同社の広報担当者は、この報告書を 「商業作品」 そして彼らは、いくつかの証拠が 実際のアクセスをテストしない あるいはそれに相当 他の人のボット.

このスタートアップはまた、 Xの出版物彼は、 検出システム 区別する 正当なAIアシスタント、サードパーティのトラッカー、悪意のあるトラフィックなどです。さらに、 タイムリーな情報を求めるエージェント 問い合わせに応答する 同じようには機能しない ウェブを大量にクロールする従来のクローラーよりも優れています。

対策、優良事例、その他の関係者の役割

Cloudflareは戦略の一環として Perplexityから削除 信頼できるボットの登録簿から削除し、 ブロックのルール 同社は管理者に、隠れた追跡機能を有効にすることを推奨している。 ボット対策ポリシー、 適用する 課題 完全なブロックが望ましくない場合は、特定の管理ルールを使用して AIスクレイピング.

クラウドフレアは、このケースを次のように対比している。 コンプライアンスの例 ベストプラクティスとして、 robots.txtを尊重する、エージェントを文書化し、次のような新しい標準を採用します。 ウェブボット認証比較テストでは、他のボットは 彼らは止まった ネットワークの禁止やブロックに遭遇した場合、 偽装再試行なし.

生態系の進路を決定づける紛争

サプライヤーは、 絶え間ない進化 ボットオペレーターの戦術と、それらを阻止するために用いられる防御策について研究しています。同時に、彼は専門家や、以下のような組織との共同研究にも参加しています。 IETF 促進する robots.txt 拡張機能 善意の追跡者が遵守すべき測定可能な原則。

特定の脈拍を超えて、このケースは 信頼の危機 コンテンツクリエイター、プラットフォーム、AI企業の間で、 何にアクセスするかどのような条件下で、どのように 透明にする ビジネスモデルを破壊したり、イノベーションを遅らせたりすることなく。すべてがこの議論に繋がっている。 開いたままになります AI エージェントが台頭し、Web が共存のルールを調整する一方で。

このエピソードは明確なメッセージを残しています。 AI追跡は精査されているCloudflareはPerplexityとそのスタートアップによる偽装戦術を非難した。 断固として否定する; 中央では、サイト所有者は 新しいツール アクセスを制御し、 良い実践 今後数か月以内に競技場となる予定の建設中。