A guide to preventing Webscraping - Webページのスクレイピングを防ぐための統合ガイド

2018年8月31日

［PR］記事内のアフィリエイトリンクから収入を得る場合があります

「ウェブスクレイピング」とは、ウェブサイトからから情報を抽出するコンピューターソフトウェア技術のこと。

インターネット上に存在する情報から必要なデータを取り出すことができる便利な技術ですが、情報を提供する側からすると、利用されたくない場合もあるかもしれません。

今回紹介する「A guide to preventing Webscraping」は、このウェブスクレイピングを防ぐためのさまざまな方法を解説する英語のドキュメントです。

開発者JonasCz氏によってStackOverflowに投稿された回答の拡張版とされ、CC-BY-SA 3.0のもと自由に変更、リミックス、共有してよいとされています。

ウェブスクレイピングを防ぐ技術

同ドキュメントは、ウェブスクレイピングを防ぐためには、実際のユーザーやサーチエンジンからのからのアクセスを容易に保ったまま、スクリプトやツールによるデータの取得を困難な必要があると説明しています。

この上で具体的にスクレイピングを防ぐために以下のような手法をリストアップしています:

またHTMLパーサーとスクレイパーを抑止する方法として以下の方法をリストアップしています:

それぞれの項目の具体的な方法はドキュメントに掲載されていますのでご確認ください。なおその他法的な手段を検討するなど、非技術的な方法も掲載されています。

ウェブスクレイピングをなんとかして防ぎたい方にとっては参考になる情報といえそうです。

よかったらシェアしてね！