androidと文字認識(OCR)

iPhoneでも有名なので知っている方は多いと思うが、CamCardというアプリを使ったことはあるだろうか。

CamCard Lite(名刺認識王 日本語中国語韓国語 - IntSig Information Co.,Ltd

このアプリは名刺をAndroidのカメラで撮影しその後OCR処理で文字を認識し、それを文字データに変換して保存管理できるものだが、何が凄いってこのアプリのOCRの認識精度が素晴らしく、かなりの小さな、例えば名前の下の方に書く会社の住所等まで殆ど正確に認識する。※1 まだ使ったことがないのであればLite版に機能の制限は無いので是非一度使ってみることをお勧めする※2

CamCardのOCR機能にすっかり感心したが、ところでAndroidで使えるOCRそれも日本語を認識できるライブラリィは無いのだろうか。

TesseractはHPが開発しGoogleと共にオープンソースに寄贈したライブラリィだが、それをJNIから使うものと考えて良いだろう。日本語に対応しているかどうかは分からなかった(恐らく対応していないだろう)

WWWJDICは正確にはOCRライブラリィではなく日本語<->多言語辞書アプリだが、機能としてOCR機能がある。なお、漢字認識機能はサーバサイドにロジックを置いているようで、この部分はなんとGWTで書かれている。 面白い。

他も含めて、手軽にAndroidアプリケーションから使えるものがあれば是非試してみたいと思う。

※1 Google Nexus S でテストしてみた結果。Androidは機器によってカメラとそのアプリの出来にかなりの差があるので注意が必要だ。
※2 Lite版が制限されるのは保存する枚数。第1週目は10枚、それ以降は週2枚ずつの保存に制限される。