スクレイピングで最も重要なHTTPヘッダー

Pexels photo 574069

ウェブサイトから情報を抽出するコンピュータソフトウェア技術「Webスクレイピング」。膨大な情報がWebで公開されている現在、適切に利用すればインターネット上からさまざまな情報を取得することができます。

このスクレイピングする際に重要となるHTTPヘッダーをまとめた情報「The most important HTTP headers for scraping」が、Go言語用のスクレイピングフレームワークCollyのサイトで公開されています。

スクレイピングに重要なHTTPヘッダーは、Collyに限らず他のフレームワークでも共通して重要です。スクレイピング興味のある開発者の方ならば参考になるのではないでしょうか。

以下のような情報がまとめられています。

リクエストヘッダー

まずはクライアントからサーバーに送られるHTTPリクエストに含まれる重要なヘッダーから。

Cookie サーバーからクライアントに送信される小さなデータ”Cookie”を送り返す
User-Agent OSやソフトウェアベンダー、アプリケーションを識別する文字列
Host サーバーのドメイン名
X-Requested-With 主にAJAXリクエストで使用される
Accept-Language クライアント側が理解する言語

レスポンスヘッダー

次はサーバーからクライアントに送り返されるHTTPレスポンスに含まれる重要なヘッダーです。

Content-Type リソースのMIME type
Content-Length レスポンスボディのサイズ
Set-Cookie サーバーからクライアントに”Cookie”を送信

まとめ

Webスクレイピングではリクエストに適切なHTTPヘッダーを設定すること、およびレスポンスのHTTPヘッダーを正しく取り扱うことが重要となります。スクレイピングに興味のある方は参照してみてはいかがでしょうか。

スポンサーリンク