🍉しいたげられたしいたけ

NO WAR! 戦争反対!Ceasefire Now! 一刻も早い停戦を!

ミステリをちゃんと自炊しよう、あるいは私は自炊ファイルのサイズを Adobe Acrobat でこうやって圧縮している

タイトル前半は人気ブロガー みどりの小野(id:yutoma233)さんの旧ブログタイトル「ミステリをちゃんと読もう」(現「おのにち」)のパロディのつもりです。小野 さんと言えばアイコンも印象的ですが、実はあの人形の名前が「おのくん人形」であることを、遅まきながら数日前の某氏のツイートで初めて知りました。

socialimagine.wixsite.com

ミステリというのは確かになぜか記憶に残りにくい。私の場合、読了した直後は「こんなん忘れるわけないやろ」と思いつつ BOOK OFF かどっかに持って行ってしまうと、メイントリックくらいは覚えているが、ディテールはすみやかに忘却してしまう。だから他人がブログで論じているのを読んだりすると、「あれ、読んだはずなのに、どういう話だったっけ?」となることが多い。その意味では自炊向きのジャンルと言えるかも知れない。

スポンサーリンク

 

 

現在、空き時間を利用してまたぞろ自炊をちびちびと進めていることを、十日前のブログに書いた。えっ? あれからもう十日? 嘘だろ!? 妖怪のしわざに違いない(このネタ何度やったら気が済む > 自分

watto.hatenablog.com

そちらに かもし(id:satorukamoshida)さんからブックマークコメントで、こんな質問をいただきました。

BOOK OFF で引き取ってくれなかった本を自炊した - しいたげられたしいたけ

自炊するとデータ量はんぱないですが、どうやって管理されてますか?

2017/09/08 20:25

b.hatena.ne.jp

確かに書籍1冊分のデータは数MB~数十MBに上り決して少なくはないですが、DVD-ROMや今どきのUSBメモリを使えば百冊単位の保存が可能ですから、それほど困った記憶はありません。

さらにAdobe Acrobatを使えばデータサイズを1/3ほどに圧縮できる。今回はその手順を書いてみたいと思う。あくまで私はこうやっているというだけで、これが最適手順かどうかは、わからない。

本文にカラーのない文庫本の場合、カバーをカラーで、本文を白黒で読み取っている。

私が使っているページスキャナ ScanSnap S1500 の場合、付属の管理アプリ ScanSnap Organaizer の右上の「ScanSnapの設定」ボタンから、読み取りモードを変更することができる。

f:id:watto:20170915230528p:plain

キャプチャした画面が小さすぎてよく見えないが、下図のダイアログボックス真ん中あたりに「カラーモードの選択:」というドロップダウンリストがあり、「カラー自動判別(原稿ごとに自動判別します)」「カラー」「グレー」「白黒」が選択できるのだ。

f:id:watto:20170915230517p:plain

あくまで私の場合だが、カバーはカッターナイフで表紙、裏表紙、表紙の折り返し、裏表紙の折り返しの4つの部分に切断してスキャンしている。背表紙はヤケが目立つことが多いので、スキャンしないで捨てている。

ScanSnap S1500 にはAdobe Acrobat 9 が付属していたが、訳あって今は製品版の Acrobat X を使っている。以下に示すのはその画面だ。

まずはカラーでスキャンした表紙をAcrobatで開く。ウインドウ左端の「ページサムネイル」という部分に、ページの一覧が表示される。下図では裏表紙の折り返しが裏表紙より後ろに表示されているが、ページの表示順はドラッグ&ドロップで簡単に変更できる。

f:id:watto:20170915221717p:plain

ウインドウ右端の「ツールウィンドウ」の「ファイルから挿入」をクリックすると、挿入するファイルが選択できるので、白黒モードで読み込んだファイルを選択して統合する。

f:id:watto:20170915221709p:plain

で、ここが今回のキモなのだが、不要なページを1ページだけでも削除すると、次に述べる「ファイルサイズの縮小」が実行可能になる

不要なページなどないという場合は(普通はそうだ)、ツールウィンドウの「置換」を用いて、先ほど挿入したファイルのうち同じページを1ページだけ置換してもよい。この操作の結果ファイル内容に変化はなく、ソフトをごまかしていることに他ならないが、1ページでも「ページ削除」に相当する操作を行うと、「ファイルサイズの縮小」ができるようになるのだ。

f:id:watto:20170915221702p:plain

一旦上書き保存し、メニューバーから [ファイル(F)]-[名前をつけて保存(A)]-[サイズが縮小されたPDF(R)...] を選択する。

f:id:watto:20170915221653p:plain

「Acrobat のバージョンによる互換性:」を訪ねるダイアログボックスに続いて、保存先を訪ねるダイアログボックスが表示される。その後、圧縮が始まる。

f:id:watto:20170915221647p:plain

今回データが残っていた文庫本3冊について、圧縮前と圧縮後のデータを記録してみた。いずれも約1/3に圧縮されている。ただし後述するが圧縮後データはOCRテキスト埋め込み後の数字である。

  圧縮前 圧縮後
文庫1 15,853KB 5,678KB
文庫2 14,770KB 5,164KB
文庫3 14,473KB 4,147KB

繰り返すが、前述の「削除」または「置換」の操作を行っていないと、なぜか圧縮は始まらない。始まったように見えて一瞬で終わってしまい、ファイルサイズはほとんど変化していない。一種のバグだろうと思うが、なんでそうなるのかは、私にはわからない。 

なお同じ現象は Acrobat 9 でも起きている。つか Acrobat 9 で見つけた。

FUJITSU ScanSnap S1500 FI-S1500

FUJITSU ScanSnap S1500 FI-S1500

 

参考までに ScanSnap Organaizer の使い方について2点ほど。

カラーページと白黒ページが混じっている本をスキャンする場合は、「ScanSnapの設定」ボタンから、カラーモード「カラー自動判別(原稿ごとに自動判別します)」を選べばよい。

f:id:watto:20170915230510p:plain

キャプチャ画面からはわかりにくいが、カラーでスキャンしているか白黒でスキャンしているかは、画面上から一目で確認できる。たまに間違っていることはあるが、まあまあ正確である。これはミステリじゃないが、それはおいといて。

f:id:watto:20170915230421p:plain 

プラス 断裁機 かんたん替刃交換 PK-513LN 裁断幅A4タテ 26-309

プラス 断裁機 かんたん替刃交換 PK-513LN 裁断幅A4タテ 26-309

 

PDFファイルにOCRテキストを埋め込むには、 ScanSnap Organizer で書影を選択し、ツールバーの [検索可能なPDFに変換▼]-[選択中のPDFを変換(F)...] をクリックする。f:id:watto:20170915230412p:plain

オプション選択のダイアログボックスが表示される。 [OK] を選択すれば、検索可能なPDFへの変換が始まる。

f:id:watto:20170915230401p:plain

追記:

b:id:potatostudio さんからブコメで「結局のところどのくらい時間がかかってるんだろう?」との質問がありました。

雑に時間を気にしてみました。今夜(9/16)の場合、午後9時過ぎから始めてテレビ見たりネット巡回したりしながら、日付が変わるくらいまでかけて7冊自炊しました。他にOCRテキスト埋め込みの時間が必要です(その間に風呂に入ってました)。

ただし今晩スキャンした文庫本はモノクロ写真のあるページが約30~50ページ含まれているものが多く、それらのページはグレーモードで読み込んで置換するという手間をかけたため、普段より効率は落ちています。白黒モードオンリーでスキャンできる場合、だいたい1.5倍くらいの処理(すなわち同じくらいの時間で10冊とちょっと)ができると思います。

f:id:watto:20170917020131p:plain

スポンサーリンク