Espion - ヘッドレスブラウザで楽々スクレイピング、2015年公開

NewImage

Webサイトから自動で情報を抽出する技術「スクレイピング」。PythonやRubyなどスクリプト言語を使う方法がメジャーですが、Webブラウザからアクセスした時と完全に同じ情報を取得するのは難しく、例えばJavaScriptが解釈できない、あるいは特定のリンクがブロックされるといった問題がありました。

Espion」はこの問題を解決するために開発されている新しいソフトウェア/クラウドサービスです。2015年Q1公開を目指して開発中で、Webアクセスにヘッドレスブラウザを使うことで、上記問題の解決を狙っています。

ヘッドレスブラウザとはGUIの無いブラウザなので、Webサイトからは通常のブラウザとして認識され、当然JavaScriptも普通に実行することができます。各種情報へはjQueryを使ってアクセスします。

$('.news').each(function () {
    ctrl.pushItem({
        headline: $('.headline', this).smartText(),
        publishedOn: u.parseDatetime($('.date', this). smartText())
    });
    ctrl.pushLink({url: $('a.headline', this).smartHref()});
};

スクレイピングを定期実行するためのクラウドサービスは有料ですが、自前のコンピューターで実行するためのソフトは商用利用含めて無料で提供される予定となっています。

Hacker Newsで話題になっていたのですが、「それSeleniumでできるよ」といったコメントもありました。RubyでSeleniumを使ってスクレイピングという記事もあるようですし、Espion的なことを今すぐ行いたい場合試してみてもよいかもしれません。

スポンサーリンク