PDF 文字検索2 (スキャナで取り込んだ画像からテキスト検索可能なPDFを作る)

スキャナで取り込んだ画像からテキスト検索可能なPDFを作る

AdobeAcrobat proにその機能がある。その認識率は?

「Adobeに電話して聞いてみると、デモ版を使って試してくれ」との事

購入すると毎月のチャージで淋しい懐が更に寂しくなる。。。

思い出した!昔、Win版の「ワンタッチOCR」というソフトをつかって、紙原稿をWordなどに変換したことがあった。
しかし変換効率が悪くて、最初から打ち直した方が、間違えなく出来、信頼性も高かったので、いつしかそれも使わなくなった。

そんな折り、無線界のOMさんの貴重な手書き資料をPDF化しよう、さらに索引キーワードで検索できるように。そんな話が舞い込んできた。
全てボランティアだ。

ワンタッチOCRを使っていた頃から既に10年くらい経過したので、そろそろOCRソフトも進化した頃。
そこで、ネット検索してみると、OCRエンジンソフトはフリーなものが出ていた。

tesseract 画像からテキストやテキスト含んだPDFへの変換
pdftotext PDFからテキスト変換
pdftk   PDF合成(残念、私のPCにインストール失敗)
pdfgrep PDF文章のgrep(検索)

そこで、どうせフリーなので、tesseractを使ってみることに!
開発元をネットで調べるとGoogleです。
元の開発はHP、現在はGoogleが公開しているオープンソースのOCRエンジンです。
Windows版、Linux版それぞれ公開されており、今回はWindows版を試してみることにしました。
さらに説明を読んでみると、フォントや文字の開始位置終了位置等を設定できる学習機能があり、それらを利用して読み取り率を向上させることで認識率を上げられるようです。
文章を手書きすること自体が減ってきおり、活用する場面はなかなか思いつきませんが、面白い技術ですので色々と実験してみたいと思います。
さて、検証1。
イラレで文字(29ptゴシック体)を打ち込んで、プリンターに出し、手書き文字を加えてからスキャナで読み込ませ画像にしました。
認識率は、イラレ活字は100%、手書き文字は全滅でした。

検証2。
朝刊での検証です。タテ、ヨコ混在の組体裁、おまけに悪い紙質、
期待通りには行きません、認識率30%〜40%位で、画数の多い文字は全滅でした。

結果内容からZIPのダウンロード出来ます。

テキストは PDFtoTEXT -rawでテキスト抽出
PDF変換は tesseract でPDFに変換しました



感謝の心を込めて・・・ 伊東祐三(山梨県 樋口印刷内) JR1GDY Good HAM Life jr1gdy

コメント

このブログの人気の投稿

山梨一宮の桃

かえる

保証外だって!!何の為の保証だ