ミステリをちゃんと自炊しよう、あるいは私は自炊ファイルのサイズを Adobe Acrobat でこうやって圧縮している

タイトル前半は人気ブロガーみどりの小野（id:yutoma233）さんの旧ブログタイトル「ミステリをちゃんと読もう」（現「おのにち」）のパロディのつもりです。小野さんと言えばアイコンも印象的ですが、実はあの人形の名前が「おのくん人形」であることを、遅まきながら数日前の某氏のツイートで初めて知りました。

socialimagine.wixsite.com

ミステリというのは確かになぜか記憶に残りにくい。私の場合、読了した直後は「こんなん忘れるわけないやろ」と思いつつ BOOK OFF かどっかに持って行ってしまうと、メイントリックくらいは覚えているが、ディテールはすみやかに忘却してしまう。だから他人がブログで論じているのを読んだりすると、「あれ、読んだはずなのに、どういう話だったっけ？」となることが多い。その意味では自炊向きのジャンルと言えるかも知れない。

現在、空き時間を利用してまたぞろ自炊をちびちびと進めていることを、十日前のブログに書いた。えっ？あれからもう十日？嘘だろ！？妖怪のしわざに違いない（このネタ何度やったら気が済む＞自分

watto.hatenablog.com

そちらにかもし（id:satorukamoshida）さんからブックマークコメントで、こんな質問をいただきました。

BOOK OFF で引き取ってくれなかった本を自炊した - しいたげられたしいたけ

自炊するとデータ量はんぱないですが、どうやって管理されてますか？
2017/09/08 20:25

b.hatena.ne.jp

確かに書籍1冊分のデータは数MB～数十MBに上り決して少なくはないですが、DVD-ROMや今どきのUSBメモリを使えば百冊単位の保存が可能ですから、それほど困った記憶はありません。

さらにAdobe Acrobatを使えばデータサイズを1/3ほどに圧縮できる。今回はその手順を書いてみたいと思う。あくまで私はこうやっているというだけで、これが最適手順かどうかは、わからない。

本文にカラーのない文庫本の場合、カバーをカラーで、本文を白黒で読み取っている。

私が使っているページスキャナ ScanSnap S1500 の場合、付属の管理アプリ ScanSnap Organaizer の右上の「ScanSnapの設定」ボタンから、読み取りモードを変更することができる。

f:id:watto:20170915230528p:plain

キャプチャした画面が小さすぎてよく見えないが、下図のダイアログボックス真ん中あたりに「カラーモードの選択：」というドロップダウンリストがあり、「カラー自動判別（原稿ごとに自動判別します）」「カラー」「グレー」「白黒」が選択できるのだ。

f:id:watto:20170915230517p:plain

あくまで私の場合だが、カバーはカッターナイフで表紙、裏表紙、表紙の折り返し、裏表紙の折り返しの4つの部分に切断してスキャンしている。背表紙はヤケが目立つことが多いので、スキャンしないで捨てている。

ScanSnap S1500 にはAdobe Acrobat 9 が付属していたが、訳あって今は製品版の Acrobat X を使っている。以下に示すのはその画面だ。

まずはカラーでスキャンした表紙をAcrobatで開く。ウインドウ左端の「ページサムネイル」という部分に、ページの一覧が表示される。下図では裏表紙の折り返しが裏表紙より後ろに表示されているが、ページの表示順はドラッグ＆ドロップで簡単に変更できる。

f:id:watto:20170915221717p:plain

ウインドウ右端の「ツールウィンドウ」の「ファイルから挿入」をクリックすると、挿入するファイルが選択できるので、白黒モードで読み込んだファイルを選択して統合する。

f:id:watto:20170915221709p:plain

で、ここが今回のキモなのだが、不要なページを1ページだけでも削除すると、次に述べる「ファイルサイズの縮小」が実行可能になる。

不要なページなどないという場合は（普通はそうだ）、ツールウィンドウの「置換」を用いて、先ほど挿入したファイルのうち同じページを1ページだけ置換してもよい。この操作の結果ファイル内容に変化はなく、ソフトをごまかしていることに他ならないが、1ページでも「ページ削除」に相当する操作を行うと、「ファイルサイズの縮小」ができるようになるのだ。

f:id:watto:20170915221702p:plain

一旦上書き保存し、メニューバーから [ファイル(F)]-[名前をつけて保存(A)]-[サイズが縮小されたPDF(R)...] を選択する。

f:id:watto:20170915221653p:plain

「Acrobat のバージョンによる互換性：」を訪ねるダイアログボックスに続いて、保存先を訪ねるダイアログボックスが表示される。その後、圧縮が始まる。

f:id:watto:20170915221647p:plain

今回データが残っていた文庫本3冊について、圧縮前と圧縮後のデータを記録してみた。いずれも約1/3に圧縮されている。ただし後述するが圧縮後データはOCRテキスト埋め込み後の数字である。

	圧縮前	圧縮後
文庫1	15,853KB	5,678KB
文庫2	14,770KB	5,164KB
文庫3	14,473KB	4,147KB

繰り返すが、前述の「削除」または「置換」の操作を行っていないと、なぜか圧縮は始まらない。始まったように見えて一瞬で終わってしまい、ファイルサイズはほとんど変化していない。一種のバグだろうと思うが、なんでそうなるのかは、私にはわからない。

なお同じ現象は Acrobat 9 でも起きている。つか Acrobat 9 で見つけた。

FUJITSU ScanSnap S1500 FI-S1500

出版社/メーカー: 富士通
発売日: 2009/02/07
メディア: Personal Computers
購入: 104人クリック: 5,788回
この商品を含むブログ (240件) を見る

参考までに ScanSnap Organaizer の使い方について2点ほど。

カラーページと白黒ページが混じっている本をスキャンする場合は、「ScanSnapの設定」ボタンから、カラーモード「カラー自動判別（原稿ごとに自動判別します）」を選べばよい。

f:id:watto:20170915230510p:plain

キャプチャ画面からはわかりにくいが、カラーでスキャンしているか白黒でスキャンしているかは、画面上から一目で確認できる。たまに間違っていることはあるが、まあまあ正確である。これはミステリじゃないが、それはおいといて。

f:id:watto:20170915230421p:plain

プラス断裁機かんたん替刃交換 PK-513LN 裁断幅A4タテ 26-309

出版社/メーカー: PLUS(プラス)
発売日: 2012/04/23
メディア: オフィス用品
購入: 7人クリック: 12回
この商品を含むブログ (7件) を見る

PDFファイルにOCRテキストを埋め込むには、 ScanSnap Organizer で書影を選択し、ツールバーの [検索可能なPDFに変換▼]-[選択中のPDFを変換(F)...] をクリックする。 f:id:watto:20170915230412p:plain

オプション選択のダイアログボックスが表示される。 [OK] を選択すれば、検索可能なPDFへの変換が始まる。

f:id:watto:20170915230401p:plain

追記：

b:id:potatostudio さんからブコメで「結局のところどのくらい時間がかかってるんだろう？」との質問がありました。

雑に時間を気にしてみました。今夜（9/16）の場合、午後9時過ぎから始めてテレビ見たりネット巡回したりしながら、日付が変わるくらいまでかけて7冊自炊しました。他にOCRテキスト埋め込みの時間が必要です（その間に風呂に入ってました）。

ただし今晩スキャンした文庫本はモノクロ写真のあるページが約30～50ページ含まれているものが多く、それらのページはグレーモードで読み込んで置換するという手間をかけたため、普段より効率は落ちています。白黒モードオンリーでスキャンできる場合、だいたい1.5倍くらいの処理（すなわち同じくらいの時間で10冊とちょっと）ができると思います。

f:id:watto:20170917020131p:plain