
Image by Oberon Copeland, from Unsplash
AIボットがウィキペディアのサーバーをオーバーロードしています
ウィキメディア財団は、自動化されたボットがデータをスクレイピングして人工知能モデルを訓練するため、そのサーバーへの圧力が増大していると警鐘を鳴らしています。
急いでいる方のために、ここに要点をまとめています:
- AIボットが史上最高のレベルでウィキメディアのコンテンツをスクレイピングしています。
- ボットの影響で、マルチメディアの帯域使用量が50%増加しました。
- 高コストのトラフィックの65%が現在、クローラーから来ています。
先日、財団は投稿で、機械によるトラフィックが前例のない速さで増加し続けている一方で、人間によるトラフィックはその一部しか占めていないと報告しました。
「2024年1月以降、マルチメディアコンテンツのダウンロードに使用される帯域幅が50%増加していることが確認されました」と投稿には記されています。
“この増加は、人間の読者から来ているものではなく、主に自動化されたプログラムからで、それらはウィキメディアコモンズの画像カタログからオープンライセンス画像を取得し、AIモデルに画像を供給するために使用されています”と投稿には追加で記載されています。
クローラーとして知られるボットは、適切なクレジットや公式アクセスツールなしに、ウィキメディアのプロジェクトから大量のデータを盗取します。このプロジェクトには、ウィキペディアやウィキメディア・コモンズが含まれます。このプロセスは、新規ユーザーがウィキメディアを発見するのを難しくし、その技術的なシステムに過度の負担をかけます。
例えば、投稿によると、ジミー・カーターのウィキペディアのページは彼が2024年12月に亡くなった日に280万回以上の閲覧を受けました。1980年の討論会のビデオはウェブサイトのトラフィックを大幅に増加させました。彼の1980年の討論会のビデオもトラフィックを急増させました。ウィキメディアはこれを処理した – しかし、かろうじてです。エンジニアによれば、本当の問題はボットのトラフィックが絶え間なく流れ続けていることです。
「私たちの最も高価なトラフィックの65%はボットから来ています」と、その財団は書いています。ボットはコンテンツを「大量に読み込む」、特に人気の少ないページを、これがウィキメディアのコアデータセンターへの高価なリクエストを引き起こします。
ウィキメディアのコンテンツは無料で使用できますが、そのサーバーはそうではありません。「私たちのコンテンツは無料ですが、インフラはそうではありません」と、その財団は述べています。チームは、「インフラの責任ある使用」を促進する方法を開発し続けており、開発者に対しては、サイト全体をスクレイプする代わりにAPIを使用するように勧めています。
この問題は、Wikimediaだけでなく、数多くの他のウェブサイトや出版社にも影響を及ぼしています。しかし、世界最大のオープン知識プラットフォームにとって、これは何百万人もが頼りにしているサービスの安定性を脅かしています。
コメントする
キャンセル