解体したくない書籍のデジタル化
書籍のデジタル化についてはかつても書いたことがあった。それは古い新書や文庫を解体して、ScanSnapというスキャナーで高速に読み込んでPDF化するという話だ。しかし解体したくない書籍も多くある。これには専用のスキャナーが必要だ。だがこれは高価であるし、プリンタについているスキャナーで取り込むにはページめくりとスキャンがのパソコン操作が大変だ。
書籍スキャナーの制作
そこでiPadminiを使ってスキャンする台を作ってみた。しかもAdobeのAdobe Scanというアプリを使うと自動シャッターが使えるのだ。
自動シャッターなので、本を下に置いて、めくって行くことができる。
いわば書籍スキャナーだ。といっても箱なのだが、意外に作るのに苦労してしまった。大事なのはiPadminiのカメラの位置と書籍の大きさに応じた高さの設計だ。できれば高さを調整したいところだが、ここは一番多い書籍の大きさに合わせておいた。また、iPadを置くのでそれなりに重さに耐えなくてはならないが、手前は空いていないとページをめくることができないので、木材でと考えたが、たまたまあった厚さ5ミリのMDF板(ボール紙の超硬いもの)を使った。
GoogleのOCR機能
さて、Adobe Scanというアプリ、とても優れているのだが、そのOCR機能がイマイチだ。スキャン後はPDFのままならそれでもいいのだが、やはりテキスト化して、Kindleでも文字の拡大等できるようにしたいので、OCRがうまくないといけない。そこでグーグルさんの登場となる。GoogleのOCR機能がとても優れているのだ。これは実際にAdobe ScanのOCR機能とGoogleのOCR機能を同じ書籍を使ってやってみた結果、Adobe ScanのOCR機能では多くのエラーがあったが、なんとGoogleのOCR機能では全くエラーがなかった。しかもルビについては別にそのページの冒頭にまとめて示すというやり方で、本文のテキストに狂いを生じないようにしている。このGoogleのOCR機能についてはあまり知られていないようだが、以前にも紹介したが、ちょとやり方が複雑だが、慣れればうまくできる。しかもPDF化しないでも画像のままで文字認識してくれる。
ためしにやってみるといい。そのやり方は以前にも書いたが、以下だ。(もちろんGoogleのアカウントは必要です。)
GoogleのOCR機能の使い方
- 画像(書類など文字列を写したもの)かPDFを用意する。(同じPCのどこかにあればいい)
- Chromeを開いて、アプリからGoogleDriveを開く。
- マイドライブの右の矢印をクリックする。(もしくは左メニューのマイドライブの文字の上で右クリックする)
- 出てきたメニューから「ファイルをアップロード」をクリックする。
- フォルダメニューから画像(書類など文字列を写したもの)かPDFを選んで、「開く」ボタンをクリックする。
- アップロードされたファイルの上で右クリックする。
- 出てきたメニューから「アプリで開く」から「Google ドキュメント」を選ぶ。
以上で、しばらくするとテキストに変換された文字列が現れるので、これを全選択してコピーし、他のテキストエディターなり、ワープロソフトに貼り付ける等で利用できるというわけだ。
やってみなはれ!ちなみにほとんどの言語に対応しているというからすごい!