膨大な AI クローラートラフィックにより Wikipedia が圧力を受ける

最終更新： 03/04/2025

Wikipedia は、アクセスルールを無視する AI ボットによってトラフィックの過負荷が発生しています。
クローラーはモデルをトレーニングするためにコンテンツを抽出し、サーバーを圧迫して人間のユーザーを排除します。
フリーソフトウェアプロジェクトも、トラフィックの増加とそれに伴うコストの影響を受けます。
デジタルエコシステムの持続可能性を確保するために、オープンプラットフォームと AI 企業間の新たな対策や合意が検討されています。

最近数か月、デジタルプラットフォームは知識の自由な共有に焦点を当ててきました 活動の増加に直面して疲労の兆候を見せ始めている人工知能トラッカー. Wikipediaのようなサービスは、そのインフラに前例のない圧力をかけられている。これは、人間のユーザーの増加によるものではなく、 生成AIモデルに供給するデータの収集に重点を置いたボットの不断の活動.

これらのトラッカーは、 多くの場合、カモフラージュされていたり、明確に識別されなかったりする。 その目的は、Web 上で利用可能なテキスト、画像、ビデオ、その他の公開資料を大量に収集することです。 言語モデルと視覚コンテンツ生成システムのトレーニングを改善することを目的としています。

Wikipedia とオープンであることのコスト

ウィキペディアと関連プロジェクトを管理するウィキメディア財団は、 2024年の初め以来、同社のサーバーのトラフィックは50％増加しました。。この増加は読者の自発的な興味によるものではなく、 利用可能なコンテンツを体系的にスキャンすることに特化したボット。実際、 最も高価なデータセンターに送信されるトラフィックの約 3 分の 2 は、これらの自動化ツールから発生しています。.

限定コンテンツ - ここをクリックしてください Google が Gemma 3 を発表: 単一 GPU 向けの最も先進的なオープンソース AI

問題は、これらのボットの多くが 確立されたガイドラインを無視する 「robots.txt」ファイルでは、ウェブサイトのどの部分が機械によってインデックス化できるか、またはできないかをマークするために従来から使用されています。この規則違反により、Wikimedia のリソースが圧迫され、通常のユーザーアクセスが妨げられ、サービスの全体的なパフォーマンスに影響が出ています。このタイプの活動は、ユーザーのプライバシーに影響を及ぼすスパイウェア.

「コンテンツはオープンですが、それを利用可能に保つにはコストがかかります。「同組織は次のように説明している。「誰でも無料でアクセスできるが、何百万もの記事やファイルのホスティング、提供、保護は無料ではない。」

この問題は、フリーエコシステムの他の部分にも及んでいる。

AI ボットによる無差別なデータ収集の影響を受けているのは、Wikipedia だけではありません。。フリーソフトウェアのコミュニティや開発者も悪影響を受けます。技術ドキュメント、コードライブラリ、オープンソースツールをホストしているサイトでは、トラフィックの急増が報告されており、多くの場合、経済的な影響なしには対処できません。ブラウジング中に誰があなたをスパイしているかという懸念は、ますます重要になっています。.

たとえば、エンジニアのゲルゲリー・オロシュ氏は、 彼は、数週間のうちに、自分のプロジェクトの 1 つで帯域幅の消費量が 7 倍になったことに気づきました。。この状況により、過剰なトラフィックによって予期せぬコストが発生し、それを彼自身が引き受けなければならなくなりました。

限定コンテンツ - ここをクリックしてくださいパックマン: バトルロイヤルモードで帰ってきた

この状況に対抗するために、Xe Iasoのような開発者は次のようなツールを作成しました。 アヌビスリバースプロキシは ウェブサイトの訪問者にコンテンツにアクセスする前に短いテストに合格するよう強制する。目標は、通常これらのテストに失敗するボットを除外し、人間によるアクセスを優先することです。しかし、これらの方法の効果は限られている。 AI クローラーはこれらの障害を回避するために継続的に進化しています。住宅用 IP アドレスの使用や頻繁な ID 変更などの手法を使用します。

防御から攻撃へ: ボットを狙う罠

一部の開発者は、より積極的な戦略を採用しています。次のようなツール ウツボカズラ属 o AIラビリンス後者はCloudflareのようなサービスを利用して設計されており、 ボットを偽物や無関係なコンテンツの迷路に誘い込む。こうすることで、クローラーは価値のない情報を収集しようとしてリソースを浪費する一方で、正当なシステムへの負担は軽減されます。

フリーウェブとAIモデルのジレンマ

この状況には根本的な矛盾が含まれています。 人工知能の発展を促進したインターネットの開放が、今やその同じ AI に情報を提供するデジタル空間の存続を脅かすというパラドックス。。大手テクノロジー企業は、無料コンテンツでモデルをトレーニングすることで莫大な利益を上げているが、 彼らは通常、それを可能にするインフラの維持に貢献していない。.

影響を受けた財団やコミュニティは、 新たなデジタル共存協定が必要。これには、少なくとも次の側面が含まれる必要があります。

AI企業からの資金援助 データソースとして使用するプラットフォームに。
特定のAPIの実装 規制され、拡張可能で、持続可能な方法でコンテンツにアクセスします。
ボット排除ルールの厳守たとえば、「robots.txt」などですが、現在多くのツールでは無視されます。
再利用されたコンテンツの帰属、元の貢献者の価値が認識されるようになります。

限定コンテンツ - ここをクリックしてください Windows 12 で未来を探る: 私たちが知っていること

ウィキメディアなどが行動を促す

個人の取り組みを超えて、 ウィキメディア財団は協調的な対策を提唱している インフラの崩壊を防ぐためです。 Stack Overflow などのプラットフォームはすでにコンテンツへの自動アクセスに対して料金を請求し始めており、状況が改善されない場合は他のプラットフォームも追随する可能性があります。

AIボットがボランティアや非営利のプロジェクトに及ぼす過度のプレッシャー ネット上の知識の多くへの自由なアクセスの閉鎖や制限を加速させる可能性がある。。これらの情報源が、今日ではその存在を脅かす技術の進歩の鍵となってきたことを考えると、これは逆説的な結果です。このような状況では、安全なブラウザが不可欠です。.

現在の課題は オープンデジタルリソースの責任ある使用モデルを見つけるこれにより、AI モデルとそれをサポートする共同知識ネットワークの両方の持続可能性が確保されます。