タイトル前半は人気ブロガー みどりの小野(id:yutoma233)さんの旧ブログタイトル「ミステリをちゃんと読もう」(現「おのにち」)のパロディのつもりです。小野 さんと言えばアイコンも印象的ですが、実はあの人形の名前が「おのくん人形」であることを、遅まきながら数日前の某氏のツイートで初めて知りました。
ミステリというのは確かになぜか記憶に残りにくい。私の場合、読了した直後は「こんなん忘れるわけないやろ」と思いつつ BOOK OFF かどっかに持って行ってしまうと、メイントリックくらいは覚えているが、ディテールはすみやかに忘却してしまう。だから他人がブログで論じているのを読んだりすると、「あれ、読んだはずなのに、どういう話だったっけ?」となることが多い。その意味では自炊向きのジャンルと言えるかも知れない。
スポンサーリンク
現在、空き時間を利用してまたぞろ自炊をちびちびと進めていることを、十日前のブログに書いた。えっ? あれからもう十日? 嘘だろ!? 妖怪のしわざに違いない(このネタ何度やったら気が済む > 自分
そちらに かもし(id:satorukamoshida)さんからブックマークコメントで、こんな質問をいただきました。
BOOK OFF で引き取ってくれなかった本を自炊した - しいたげられたしいたけ
自炊するとデータ量はんぱないですが、どうやって管理されてますか?
2017/09/08 20:25
確かに書籍1冊分のデータは数MB~数十MBに上り決して少なくはないですが、DVD-ROMや今どきのUSBメモリを使えば百冊単位の保存が可能ですから、それほど困った記憶はありません。
さらにAdobe Acrobatを使えばデータサイズを1/3ほどに圧縮できる。今回はその手順を書いてみたいと思う。あくまで私はこうやっているというだけで、これが最適手順かどうかは、わからない。
本文にカラーのない文庫本の場合、カバーをカラーで、本文を白黒で読み取っている。
私が使っているページスキャナ ScanSnap S1500 の場合、付属の管理アプリ ScanSnap Organaizer の右上の「ScanSnapの設定」ボタンから、読み取りモードを変更することができる。
キャプチャした画面が小さすぎてよく見えないが、下図のダイアログボックス真ん中あたりに「カラーモードの選択:」というドロップダウンリストがあり、「カラー自動判別(原稿ごとに自動判別します)」「カラー」「グレー」「白黒」が選択できるのだ。
あくまで私の場合だが、カバーはカッターナイフで表紙、裏表紙、表紙の折り返し、裏表紙の折り返しの4つの部分に切断してスキャンしている。背表紙はヤケが目立つことが多いので、スキャンしないで捨てている。
ScanSnap S1500 にはAdobe Acrobat 9 が付属していたが、訳あって今は製品版の Acrobat X を使っている。以下に示すのはその画面だ。
まずはカラーでスキャンした表紙をAcrobatで開く。ウインドウ左端の「ページサムネイル」という部分に、ページの一覧が表示される。下図では裏表紙の折り返しが裏表紙より後ろに表示されているが、ページの表示順はドラッグ&ドロップで簡単に変更できる。
ウインドウ右端の「ツールウィンドウ」の「ファイルから挿入」をクリックすると、挿入するファイルが選択できるので、白黒モードで読み込んだファイルを選択して統合する。
で、ここが今回のキモなのだが、不要なページを1ページだけでも削除すると、次に述べる「ファイルサイズの縮小」が実行可能になる。
不要なページなどないという場合は(普通はそうだ)、ツールウィンドウの「置換」を用いて、先ほど挿入したファイルのうち同じページを1ページだけ置換してもよい。この操作の結果ファイル内容に変化はなく、ソフトをごまかしていることに他ならないが、1ページでも「ページ削除」に相当する操作を行うと、「ファイルサイズの縮小」ができるようになるのだ。
一旦上書き保存し、メニューバーから [ファイル(F)]-[名前をつけて保存(A)]-[サイズが縮小されたPDF(R)...] を選択する。
「Acrobat のバージョンによる互換性:」を訪ねるダイアログボックスに続いて、保存先を訪ねるダイアログボックスが表示される。その後、圧縮が始まる。
今回データが残っていた文庫本3冊について、圧縮前と圧縮後のデータを記録してみた。いずれも約1/3に圧縮されている。ただし後述するが圧縮後データはOCRテキスト埋め込み後の数字である。
圧縮前 | 圧縮後 | |
文庫1 | 15,853KB | 5,678KB |
文庫2 | 14,770KB | 5,164KB |
文庫3 | 14,473KB | 4,147KB |
繰り返すが、前述の「削除」または「置換」の操作を行っていないと、なぜか圧縮は始まらない。始まったように見えて一瞬で終わってしまい、ファイルサイズはほとんど変化していない。一種のバグだろうと思うが、なんでそうなるのかは、私にはわからない。
なお同じ現象は Acrobat 9 でも起きている。つか Acrobat 9 で見つけた。
FUJITSU ScanSnap S1500 FI-S1500
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 104人 クリック: 5,788回
- この商品を含むブログ (240件) を見る
参考までに ScanSnap Organaizer の使い方について2点ほど。
カラーページと白黒ページが混じっている本をスキャンする場合は、「ScanSnapの設定」ボタンから、カラーモード「カラー自動判別(原稿ごとに自動判別します)」を選べばよい。
キャプチャ画面からはわかりにくいが、カラーでスキャンしているか白黒でスキャンしているかは、画面上から一目で確認できる。たまに間違っていることはあるが、まあまあ正確である。これはミステリじゃないが、それはおいといて。
プラス 断裁機 かんたん替刃交換 PK-513LN 裁断幅A4タテ 26-309
- 出版社/メーカー: PLUS(プラス)
- 発売日: 2012/04/23
- メディア: オフィス用品
- 購入: 7人 クリック: 12回
- この商品を含むブログ (7件) を見る
PDFファイルにOCRテキストを埋め込むには、 ScanSnap Organizer で書影を選択し、ツールバーの [検索可能なPDFに変換▼]-[選択中のPDFを変換(F)...] をクリックする。
オプション選択のダイアログボックスが表示される。 [OK] を選択すれば、検索可能なPDFへの変換が始まる。
追記:
b:id:potatostudio さんからブコメで「結局のところどのくらい時間がかかってるんだろう?」との質問がありました。
雑に時間を気にしてみました。今夜(9/16)の場合、午後9時過ぎから始めてテレビ見たりネット巡回したりしながら、日付が変わるくらいまでかけて7冊自炊しました。他にOCRテキスト埋め込みの時間が必要です(その間に風呂に入ってました)。
ただし今晩スキャンした文庫本はモノクロ写真のあるページが約30~50ページ含まれているものが多く、それらのページはグレーモードで読み込んで置換するという手間をかけたため、普段より効率は落ちています。白黒モードオンリーでスキャンできる場合、だいたい1.5倍くらいの処理(すなわち同じくらいの時間で10冊とちょっと)ができると思います。
スポンサーリンク