しいたげられたしいたけ

空気を読まない。他人に空気を読むことを要求しない。

OCRソフトが(も?)進化していた!

スキャナについていたおまけのお試し版と、製品版との違いかも知れないが。いやそっちだなきっと。
副業の関係で、pdfファイルをテキスト化したい機会が、半年に一度くらいある。
某公的機関がHPで公表している文書で、フリーだがロックがかかっている。それを以前は、スクリーンキャプチャして画像ファイルとして保存してから、OCRソフトでテキスト化していた。ソフトはキャノンのスキャナについていたもので、パナソニックの読取革命Lite。
メインマシンはXP機からセブン機に引っ越したが、OCRソフトが64bit環境で使えるかどうかわからなかったので、確かオンラインショッピングで製品版が購入できたはずだと調べてみた。
読取革命ver.15アップグレード版6800円。
まあそんなところか。ちなみに製品版は12800円。他社製品との比較検討はあんまりやらないで購入決定。
製品HPには、メディアCD-ROMを持っていればアップグレードできると書いてあったが、届いたパッケージには「Lite版はインストールしてないとアップグレードできない」とあった。結局インストールしなきゃいけないのか。
だが、製品版を購入するだけのことはあった!
従来
(1)pdfをAdobe Readerで表示→(2)スクリーンキャプチャ用フリーソフトで画面切り取り&bmpファイル化→(3)OCRソフトでテキスト化→(4)ワープロソフト(Wordを使っている)に貼り付け
という手間をかけていたのが…
製品版では
(1)pdfをOCRソフトで直接読み込み→(2)Word文書に変換
だけで済むようになった!
スクリーンショット撮ったので貼ってみるかな?うちのブログは文字ばっかりで画像が少ないと言われたことがある。
従来手順(1)のAdobe Readerでpdfファイルを表示したところ。

従来手順(2)。Capture XPというフリーソフトを使っている。XPなのでSnipping Toolがないのだ。範囲選択するとpaintが自動実行される。

従来手順(3)。保存した画像を読取革命Liteで読み込んだところ。

読取革命Liteで文字認識したところ。テキストボックスに小分けしてテキスト化される。

従来手順(4)。Wordにコピペ。

製品版手順(1)。メニューに「pdfを解析して入力」という項目があるので…

ファイルを選択するとページ指定画面が出てくる。複数ページの指定が可能なのだ!

「OK」をクリックすると「pdfファイルの認識に失敗しました」というエラーメッセージが表示されるが、気にしない。ロックが掛かっているからだろう。

製品版手順(2)。ツールボタンの「Word」をクリックすると、Wordが自動的に立ち上がる。

もっとも読取革命が作ったWord文書ファイルは、レイアウトをオリジナルに合わせるため段区切りやタブがいっぱい自動挿入されているので、テキストだけを新規ファイルにコピー&ペーストする必要は生じる。
それでも従来の手順だと、起動するソフトはAdobe Reader・スクリーンキャプチャ用フリーソフト・読取革命Lite・Wordの4つ、フリーソフトが起動するpaintまで含めると5つだったのが、新しい環境では、読取革命ver.15以外には読取革命が起動するWordを含めても2つになったのだから、手間は格段の差である。
しかも、複数ページを一気に処理できることも大きい!Adobe Readerの表示を画像ファイル化していたのでは、当然ながら1ページずつしか処理できない。
ということで、便利になったのはありがたいことだ。
だがこういう時いつも、これで後戻りができなくなったという不安も感じる。まあ元々パソコン使ってOCR使って仕事をしている段階で、後戻りもへったくれもなかろうと突っ込まれたら、沈黙するしかないのであるが。