
Image by Marco Verch, from Ccnull
AI迷路:Cloudflareの新ツール、偽のウェブページでAIクローラーをだます
Cloudflareは、ウェブサイトから許可なくデータを抽出するAI駆動のウェブスクレイパーと戦うために設計されたツール「AIラビリンス」を発表しました。
急いでる?ここに要点をまとめておきます:
- このツールは、スクレイパーの時間を無駄にするために、現実的だけど無用なAIによるコンテンツを生成します。
- AI迷路は、AnthropicやPerplexity AIを含むrobots.txtを無視するボットを対象としています。
- 次世代のハニーポットとして機能し、不正なクローラーを検出し、特定します。
これらのボットを一方的にブロックする代わりに、AI迷路は彼らをAIが生成する無限のページの迷路に誘導し、彼らの時間と計算力を無駄にします。
“不正なクローリングを検出した場合、リクエストをブロックするのではなく、クローラーが探索を誘引するほど巧妙なAI生成ページへのリンクを張ります”と、Cloudflareはブログ投稿で説明しています。
“しかし、本物そっくりなこのコンテンツは、実際には私たちが保護しているサイトのコンテンツではないため、クローラーは時間とリソースを無駄にすることになります”と、Cloudflareは付け加えています。
ArsTechnicaは、AIスクレーパーが問題であると指摘しています。なぜなら、それらは多くの場合、許可なくウェブサイトから大量のデータを収集し、AIモデルの訓練に使用するからです。これにはいくつかの問題があります:知的財産権を侵害する可能性があり、また、ウェブサイト所有者がアクセスを規制するために使用するコントロールを迂回する可能性があります。
さらに、スクレーピングは、機密性の高い情報や独自のデータの誤用につながる可能性があります。スクレーピングの量は劇的に増加しており、Cloudflareは毎日500億以上のクローラーリクエストを報告しています。
この大規模なデータ抽出は、ウェブサイトのリソースを消耗させ、サイトのパフォーマンスとプライバシーに影響を与えつつ、AI開発におけるデータ利用の懸念を増大させています。
ウェブサイトの所有者は従来、robots.txtファイルに依存してボットに何を許可し、何を禁止するかを伝えてきましたが、AnthropicやPerplexity AIのような主要なAI企業がこれらの指示を無視しているとThe Vergeで報告されています。
CloudflareのAI Labyrinthは、これらの望まないボットに対処するためのより積極的なアプローチを提供します。このツールは”次世代のハニーポット”として機能し、ボットを人工的なコンテンツのウェブへと深く引き込みます。そのコンテンツはリアルに見えますが、AIのトレーニングには結局無意味なものです。
従来のハニーポットとは異なり、ボットが識別を学び取ることができるものではなく、AI LabyrinthはCloudflareのWorkers AIプラットフォームを使用してリアルに見えるが実際には関連性のない情報を作り出します。
「本物の人間がAIが生成したナンセンスの迷路を4つも深く掘り下げることはありません」とCloudflareは指摘しました。「そのような行動をする訪問者は、ほぼ確実にボットである可能性が高いため、これにより新たなツールを提供して悪質なボットを特定し、フィンガープリントを取ることができます。」
AIが生成したコンテンツは科学的に事実に基づいていますが、保護されている実際のウェブサイトとは無関係に設計されています。
このツールは、AIスクレイパーを混乱させながらも、誤情報の拡散に寄与しないことを保証します。誤導的なページは人間の訪問者には見えず、検索エンジンのランキングにも影響を与えません。
AI Labyrinthは、全てのCloudflareユーザーに無料で利用可能な、オプトイン機能として提供されています。ウェブサイト管理者は、CloudflareダッシュボードのBot Management設定からこれを有効にすることができます。
この会社は、これがAIによる対策の始まりに過ぎず、将来的には偽のページをさらに欺瞞性のあるものにする計画があると述べています。
ウェブサイトとAIスクレイパーの間のイタチごっこは続いており、Cloudflareはオンラインコンテンツを保護するための革新的なアプローチを採用しています。しかし、AI企業がこれらの罠にどれだけ早く適応するのか、そしてこの戦略がウェブデータを巡る闘争のエスカレーションにつながる可能性があるのかについては、まだ疑問が残っています。
コメントする
キャンセル