月曜日, 4月 09, 2012

文字認識 : OCR

-----------


-----------
今週の the nikkei weekly 記事.


nation frests on new radiational limits
.... fret .... 悩む.


Docomo calls off chip joint venture

.... call of ... 白紙にする.
新聞見出しではよく, withdraw って単語もよく見かけるか?


Bridgestone uses komatsu idea to boost tire tech

タイヤにセンサつけて,極寒のロシアから,灼熱の中東まで,シビアな環境をモニタするとのこと.

Mrs. Watanabe fueling minor currencies.

ワタナベ夫人という為替用語があるらしい.


-----------
日経 Linux を立ち読みし,gImageReader というソフトウエアを知る.
僕の趣味に不可欠な機能が入ってるかも.

とりあえず,ソース,gimagereader-0.9.tar.gz をダウンロードしてみる.
我が家の Fedora15 に入れてみよう.
....失敗.

rpm で入れようとしたら,いろんなライブラリ欠損.

yum -y install gnome-python2-gtkspell
yum -y install pypoppler
yum -y install python-imaging-sane
yum -y install tesseract

 rpm -ivh gimagereader-0.9-1.fc15.noarch.rpm

 インストール成功.


 新聞スクラップ記事の OCR .
なかなかの認識率なのでは....
しかも Windows 版もあるらしい.

問題は,この抽出文書を PDF の透明文字に割り当てたい...

Google がいろいろ関わってるようだが,透明文字付 PDF の Adobe に宣戦布告という構図もでてくるか...
-----------

奥さんの看病,通院,子供の保育所,...休日をとっても,中身は休日じゃなかった.
自分用の平日有給休暇を考えなアカンなぁ.

-----------
我が家のおんぼろ thinkpad x23 に Android を入れようとおもってたけど,
こっちもアリだなぁ.


-----------
家を建てる前にこのソフトを知ってればよかった.

0 件のコメント:

コメントを投稿