Pure JavaScript製のOCR「Ocrad.js」が凄い

Ocrad js

OCR (Optical Character Recognition)とは画像ファイルなどからテキストを抽出する技術のこと。これをJavaScriptオンリーで実装したライブラリが「Ocrad.js」です(デモサイトGitHubHacker News)。

といってもGNU製のOCRであるOcrademscriptenを使ってJavaScriptに変換したものらしいので、1からJavaScriptで作り上げたものではないみたいですけど。

デモ

デモサイトを使えばOcrad.jsの性能がよくわかります。

Ocrad js  Optical Character Recognition in Javascript

「Welcome to the Ocrad.js Demo!」が間違いなく認識できていることがわかりますね。

Ocrad js  Optical Character Recognition in Javascript 1

しかし100%認識できるわけではなく、フォントによっては正しく認識できないももあるようです。アルファベットはあまり認識率が高くないことがわかります。

Ocrad js  Optical Character Recognition in Javascript 2

もとのOcradが日本語未対応なのでだめだと思いましたが一応確認。日本語はやはり認識できませんでした。

組み込み方

ocrad.jsを組み込み


認識させます。

var string = OCRAD(image);
alert(string);

imageは、canvasエレメント、Context2Dインスタンス、ImageDataインスタンスであれば良いようです。

まとめ

JavaScriptでできているので、Webサイトに組み込んだ場合、サーバーとやりとりすることなく素早くテキストを認識できるという利点があります。対応言語や認識精度の問題はありますが、OCR技術は今後ますます重要度を増していくことでしょう。日本人としては日本語対応OCRライブラリが開発されることにも期待したいですね。

スポンサーリンク