書籍の電子化を行って問題になったところを洗い出す

まずはスキャンについて

アプリの Adobe Scan の問題点

設定で
「テキスト認識を実行」と
「スキャン後に毎回境界線を調整する」
この二つをオフにしておくこと。
スキャン画面で
文章を選びオートスキャンをオンにしておくこと。

この設定でスキャン台に iPad おけば後は本のページをめくるだけでスキャンはできていく。
しかしどういうわけだか数ページやるとスキャンが止まってしまう。
これはアプリの問題で再起動すれば問題なくできるのでよしとする。

PDF の作成も時間がかかったが問題なくできた。
ここには容量の制限はなさそうだ。

作成したスキャン機械の問題点

本を置く台について

やはり本の背の真ん中の部分を凹ませて置くための工夫が必要そうだ。
もう一つはページをめくった時に抑える方法を考えるべきだ。
ここは透明のアクリル板等をうまく使えばいいかもしれない。
透明の定規でもいいだろう。

追記

ここは次に関連して、本文外の下のページ数字と上の表題文字をスキャンしないほうがいいので、窓枠のようなものを作って,押さえていくというのがいいかもしれない。

OCR について

Google のドキュメントを使って OCR を実行しようとしたが、容量が大きくてうまくいかなかった。
結局 PDF を分割して OCR を実行しなければならなくなった。
PDF の分割は実は Google の Chrome で実行できることが分かった。
これはヒットだ。
ここにそのやり方を書いておくと以下のようになる。

  1. まず Chrome で PDF を読み込む
  2. 次に PDF を印刷するという形をとる
  3. その際「送信先」を PDF とし、
  4. 「ページ」をカスタムとし、ページ数を指定する(例えば1ー10といった具合だ)
  5. するとファイルの保存ができるのでファイル名を付けて保存をしておく。

これが Chrome を使った PDF の分割のやりかただ。
さてどのぐらいの容量だと OCR が実行できるか、ネットによると2メガぐらいだという話であった。実はこのファイル32メガぐらいあったので、かなり分割しなければならないと考えたが、実際には8分割、ページ数で言うと10ページずつでやることができた。

こうして OCR を実行しそれをテキストファイルに繋いで行った。

OCR の問題点

よく日本語に直してくれているのだが、ポイントは改行についてだ。
Google ドキュメントの OCR では、行を改める場合がまちまちだ。本の通りに改行していたり、半角スペースを入れて改行していなかったりだ。ただ、この半角スペースが明らかに改行を表していることは確かなので、 テキストエディターに読み込んだ後その半角スペースを改行キーに置換すればうまくいくことになる。(実際の本と同じ体裁になる)
ここまではいいのだが 、これが実際に電子ブックで読み込んだ場合、いいところで改行されていることにならない。
これは元の書籍の行の文字数で改行しているからで、本来は段落で改行していなくてはならない。ここをどうするかが大きな問題だ。 これについては研究の余地がある。

電子ブック化について

これはやや苦労をしたが、結局は青空文庫のツールを使うことになった。
実は当初マックでやっていたので、 Pages を使って電子ブック形式にすると言うことを考えた。 しかしどういうわけだかうまくいかなかった。これについてもよく考えなければいけないが、一応電子ブック形式になるのだが、実際にアプリで読んでみるとうまく表示されないということになってしまった。 これについては文字コードの問題とか色々ありそうな気がするこれも研究の余地がある。

結局は青空文庫のツールを使ってテキストを青空文庫形式にし、それをアップロードして Kindle で読むという形にした。
しかしここでも問題が起きた。
Kindle 専用機では( Kindle ペーパーホワイトだが)うまく縦表示で読むことができたが、アプリの Kindle ではどういうわけだか縦表示にならなかった。 これは一体どういうことなのかこれも研究の余地がありそうだ。

最終的な問題点

テキスト化するときに段落をどう扱うかということこれが結構大きな問題だ。
ここをうまく一括処理できればいいのだが、結構難しい問題だと言える。

もう一つは表紙や目次をどう作るかだ。
ここはpagesの作成の仕方を学ぶか、それとも青空文庫形式を学ぶか、どうするかだ。
両方を試していくしかないかもしれん。

今回はここまで。
2021.07.05

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です