電子ブック化について2

電子ブック化について2

青空文庫のツールを使った電子ブック化ではなく、「でんでんコンバーター」と言うサイトがあって、これを使うとテキストファイルを電子ブック化してくれる。 この形式は一般的な EPUB 形式だが、目次や表題などを入れることができる。そしてこのファイルを Kindle プレビューアでいわゆる Kindle の mobi ファイルにする。これが一番電子ブック化については簡便な方法と思われる。
さて、この方法で作った電子ファイルもいわゆる Amazon のメールを使った転送で Kindle Paper White や iPad mini に送ってみると、Kindle Paper Whiteだと上手く縦表示できるが、 iPad mini の Kindle アプリではうまく縦表示をしてくれない。
これについては昨日問題点としてあげておいたが、どうやら解決方法がありそうだ。 iOS 用には mobi ファイルではなく、別の azk の拡張子を持つファイルに変換する必要がありそうだ。 ただこのファイルはプレビューワーで変換はできるが、メールでの転送ができないようだ。 そこで直接 iPad mini にこのファイルを送ってやる必要がある。 それにはPCにiPad mini をつなぎ、 iTunes でファイル転送をする必要があるようだ。 この辺りはやや面倒だが、仕方がないことだと言える。 早速行ってみることとする。
やってみた。しかし iTunes は必要ない。 パソコンがMacであれば、繋いだだけでファインダーを通じて、アプリを表示し、こにファイルをドラッグアンドドロップすればすむ。そして表示してみると、確かに縦書きになっていた。 しかし Kindle 上で表題が出ない。 ま、これは EPUB の作成の問題かもしれない。

OCR の問題点

ここで問題となった点について、なんとか解決したので、記しておく。

「ここまではいいのだが 、これが実際に電子ブックで読み込んだ場合、いいところで改行されていることにならない。
これは元の書籍の行の文字数で改行しているからで、本来は段落で改行していなくてはならない。ここをどうするかが大きな問題だ。 これについては研究の余地がある。」

と書いた点だ。

どこをまず改行しないかということだ。これは句点がついていないところということができる。ただ、句点がついていなくても、”」”があって改行されているところはこの限りではないということだ。それをどう正規表現で表現するかだ。もう一つ”)”もある。
つまり、”。”、”」”、”)”を文末に含まない行を指定するにはどうするか。
これは正規表現をエディタで使い、置換できればいいわけだ。

正規表現について

ここで久しぶりに正規表現の復習とあいなった。復習というのは、随分以前に(MSDOSの時代)随分必要に迫られて勉強した。しかし、ほとんど忘れていた。また、正規表現はプログラムによって若干の違いがあるので、だいぶ時間を要してしまった。結論的には単純なのだが、結構ハマった!

先ずはやりたいこと。
「文末が、句点(”。”)、閉じかっこ(”」”)と(”)”)以外で終わっている文末の改行をさせない(改行キーを削除する)こと」だ。

先ずは「以外」の表現は[^文字]で表せる。しかも並べることができるので、
[^。」)]
となる。文末は$なので、
[^。」)]$
これで「句点(”。”)、閉じかっこ(”」”)、(”)”)以外で終わっている文末の文字」
となる。
そして、この文字は置換後も使うのでかっこで囲んで、それに改行キーを付け加え
([^。」)]$)\n
とする。これで検索し、置換後は
$1
とする。
ここが色々と違っているところで、macのmiエディタでは通じた。すなわち最初の()で囲まれた文字を指すのが$1ということになるからだ。そしてそこに改行キーをつけていないので、改行されないというわけだ。

このテキスト、3000行あるのでこうした一括処理がじつに役に立つ。

ただ、気をつけなくてはいけないのはこれを実行する前に見出し部分はタグをつけておくことだ。見出し文字とかだ。

今回はここまで。
2021.07.07

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です