昨日のエントリー の続きです。
OCRによるテキスト化は予定通り2日で終わった。実はあれからさらに作業を続けて、もう少し頑張れば1日で終わるかなというところまで追い込んだつもりだったが、翌日に回した分を片付けるのに思った以上に時間がかかったから、やはり1日ではムリだった。千里の道は九十九里を半ばというやつだ。
実はこの作業は、頭を全然使わなくてもいい単純作業だから楽だ。コピー&ペーストとさして変わらない。OCRの精度もずいぶんと向上したもんだ。カタカナの「エ」を漢字の工場の「工」と誤認識するであるとか、「IT」〔アイティー〕を「1T」〔いちティー〕にするとか、定番的な間違いはなかなか解消されないが。まあこれはもう慣れた。
次は内容を読んで分類タグをつける作業だ。これがどれだけかかるか読めない。もう何年も年中行事的に同じことをやっているのだから、見積もれるようにしておきたいというのが記録を残そうとした動機だ。ただし、この仕事にかかりきりになれるわけではない。明日は別の仕事に集中しなければならないから、手を付けられるのは明後日以降になる。
読んでいただいている方にはすみません。純然たる自分用メモです。
追記:
あれ? 分類タグ付けも2日ほどで終わってしまう? つかステップ1:OCRテキスト化とステップ2:タグ付け分類が合計3日? じゃ、なんでこれまであんなに時間がかかっていたんだろう? 謎だ…
スポンサーリンク