しいたげられたしいたけ

空気を読まない。他人に空気を読むことを要求しない

marco(id:garadanikki)さん所有の古書のOCRによるテキスト化を論より証拠でやってみました

marco(id:garadanikki)さんの、こちらのエントリーへの速報的レスです。

garadanikki.hatenablog.com

まずは拙コメントへの本文にての言及、ありがとうございました。光栄です。

論より証拠、marco さんがアップされた最初の写真につき、手持ちの「読取革命(ver.15.01)」によるテキスト化を試してみました。

こちらの元写真を使用しました。記事よりの転載をお許しください。最初の写真を使用したのは、解像度が高く(=文字が大きく写っており)、また文字が垂直または平行に写っていたほうが、認識率が高くなるからです。

f:id:watto:20171008105738j:plain

ローカルに保存した画像を「読取革命」で開き、「Text」ボタンをクリックして認識開始したところです。

f:id:watto:20171008162003j:plain

認識結果を加工なしで貼り付けてみます。

”`   ………J’亅一丿邏 `一’゛”`・釦Wヽ”  ゛I
       厂 犬一端   、いjj  。亅バー`””!
七四
’あるに愆ひない」      ご    厂し∧      じ  べ
ヽえらい粐鈩ンなんなはつたもんやなア」  。。
廿ごって宗い言うたんやないか。わい、ちやアんと廁えて’る・ ・
忘れたんか?」
乎に眞似て、「一贄、どないしてん、&んた、えら
 g
い髦けなは
きりたらかたはんわ。……`‘せいどん、あんた弑の素やけど、

 

bよつと戸外へ出てみせておいて、それからうちの濟をつけろ、

、怪態な韻するねんな」
-
助が目交をてる顔つきを仰山に弧似てみて、「……醉うてたか  ゛
前らに眺戊化されへんで。必るもんやったら、さっさと川した  一
てんね」                  ’ヽ
やったら、もう去んどくなはれ」

手動でゴミを除去し、誤認識を修正し、ルビをつけ加える作業にほぼ10分かけると、こうなりました。

あるに違ひない」
えらい吝嗇〔けち〕ンなんなはつたもんやなア」
むよつ來い言うたんやないか。わい、ちやアんと憶〔おぼ〕えてる
忘れたんか?」
手に眞似て、「一體、どないしてん、あんた、えらい耄〔ぼ〕けなは


會うたらかたはんわ。……おせいどん、あんた氣の毒やけど、


ちよつと戸外〔おもて〕へ出てみせておいて、それからうちの酒をつけろ、


怪態〔けったい〕な顔するねんな」
助が目交〔めまぜ〕をする顔つきを仰山に眞似てみて、「……醉うてたか
前らに誤魔化されへんで。あるもんやったら、さっさと出した
てんね」
やったら、もう去〔い〕んどくなはれ」

正字体の「眞」や「醉」をちゃんと出してくれた一方、元々の印刷の活字がつぶれていた場合の誤認識は避けられないようでした。また「違」の「しんにゅう」の点を二つにするのは無理でした。

   *       *       *

過去の経験に照らすと、フラットベッドスキャナを用いて白黒で読み取れば、紙の汚れ、シミは無視可能なレベルになりそうです。OCRソフト「読取革命」は製品版を使用しましたが、Canonプリンタ複合機バンドル版でもほぼ同等の精度だと予想されます(製品版は「表読取り」「複数アプリ対応」が売りなので)。

以上、 まずは実験結果と感想をお知らせします。

Canon インクジェットプリンター複合機 PIXUS MG3630 BK ブラック

Canon インクジェットプリンター複合機 PIXUS MG3630 BK ブラック