Web検索エンジン構築ソフト「Apache Nutch 2.0」

オープンソースのWeb検索エンジン構築ソフト「Apache Nutch 2.0」が公開されました(リリースノートマイコミジャーナル)。

恥ずかしながら、Apache Nutch に関して全く知識がありませんでしたが、検索エンジンやWebクローラーを組み合わせた結構複雑なソフトのようです。

Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。

2010年の記事ですが、Apache Nutch の概要を知るには以下のリンクが有用かと。

スポンサーリンク