WIN10上でのScanSnap
デスクトップを遅ればせながらWIN10に変えたので、ScanSnapを使えるようにした。
ScanSnapはエントリーモデルのS1300i。ScanSnapのアプリを変更。その当初も一応使えるようにしたのだが、ScanSnapManagerをScanSnapHomeに変える。富士通のサイトから導入できる。ただし、古いManagerはアンインストールする必要がある。使ってみると、こちらの方が使い勝手がいい。
一枚のペーパーならなんの問題もないことは確認済み。
古い新書、文庫本を自炊
実際にスキャンをやってみることに。
新書は224ページ112枚、文庫は168ページ84枚。
新書は遠山啓の『数学入門』1970年版、ちなみに初版は1959年に発行。大学入学後に購入した。国文学専攻なのに数学?実は高校時代の低学年までは得意科目は数学でした。この本にもっと前に出会っていれば、数学を専攻していたかも。でも物にはならなかったけど。勿論国文学も物にはなっていませんが。それはともかくこの本は名著です。しかももう一度読み返したいし、孫にも与えたい本だ。しかし、新書本と言うこともあり、かなり老朽化していた。新書は簡易製本なので、もはやバラバラになる状態。まさに電子化するに適した材料ということ。もう一つは横書きで図や数式等が入っているというのも選んだ理由。
もう一つの文庫は伊藤整の『近代日本人の発想の諸形式』1986年版、初版は1981年。これはさほど古くもなく、本自体も老朽化していないが、文字が詰まっていて、振り仮名も多く、字も小さいので、こういう文庫を電子化し、電子ブックで読めたらいいということで選んだ。老朽化していないが、思いっきりカッターで背の部分5ミリぐらいのところで切断した。
スキャンの実際
自動モードで新書をスキャン。実に早い。両面スキャンなので100枚以上あるけど、20枚づつセットして(ちなみに10枚が限度と言われているが紙が薄いので大丈夫)、1分12枚両面24ページいけるということだが、実際には15分ぐらいで(紙の入れ替えを含め)、全ページスキャンできた。しかも、自動でPDFになっているので便利だ。
文庫の方は自動だと遅いモードになってしまった。これは文庫のページをScanSnapが詳細と判断したか、紙が黄色味を帯びているということもあるのか、ファインモードになったようだ。あまりに遅いと感じたので、モードを自動ではなく、普通に変えると早くなった。ほぼ全ページ10分程度でPDF化できた。
KindleでPDFを読む
目的はここにあるので早速やってみることにする。まずはKindle-paperwhiteで読めるようにしたい。それには二つの方法がある。一つはKindle-paperwhiteをusbでPCに繋ぎ、直接本体にPDFファイルを転送する方法。もう一つは自分のアマゾンのKindle用アドレスにメールの添付ファイルで送る方法だ。後者の方法はいわゆるアマゾンのクラウドに置けるので、いろいろな端末から見ることができるのでいいのだが、ファイルが大きいと添付ファイルで送れないという難点がある。しかも、高速でスキャンしたPDFはKindle-paperwhiteで読むのは現実的ではない。やはりしっかりしたテキストでないと読みづらい。
そこで、こうしたPDFはパッドで読むのがいい。iPadminiのKindleアプリで表示したのが、この画像だ。(画像の上でクリックすると拡大表示します。)
OCRについて
さて、PDFをテキスト化することについて触れておく。PDF化は簡単にできるが、これをテキスト化できれば、いろいろな形に変換できて、Kindle-paperwhiteでも文字を大きくしたり、色々できて、いうことがないのだが、これがそう簡単にはいかない。色々試してみたが結論から言うと、PDFのテキスト化はgoogleドライブのドキュメントに限ると言うことだ。そのためにはPDFの品質に問題があるのだが、今回の場合、スピードスキャンしたものは上手くいかなかった。上の画像にあるようなPDFは認識すらしてくれない。しかし、文庫で最初にファインモードでスキャンしたPDFはかなりの精度でテキスト化してくれた。その方法を以下に記しておく。
- googledriveにアクセスし、マイドライブで右クリック、ファイル(用意したPDF)をアップロードする。
- そのファイルを右クリック、「アプリで開く」から「ドキュメント」を選択する。
- 上メニューの「ファイル」から「ダウンロード」を選び、「書式なしテキスト(.txt)」を選ぶ。
以上でダウンロードフォルダに同じ名前のテキストファイルが入る。
これはテキストばかりかワードファイルやPDF、電子ブックファイルなどに変えてくれる。しかし、一旦テキストに落としてエラーや誤変換がないか確認が必要だ。
長くなったが、以上です。
2021.01.30