古典研究とIT・AI

AIくずし字アプリ「みを」のスクリーンショット

AIの話題

最近AIが話題だが、NPOでもこれが話題になった。

小生少なからず勉強してきたHTMLとCSSも簡単に書いてくれる。例えばある入力用のページを作ってもらうために紙に絵を書く。それを画像化し、読み込んで、「プログラムせよ」と言えば、HTMLとCSSを書いてくれる。実に便利だ。もう小生程度のプログラマー?は不要となるかもしれない。

また基本的なプログラムでいえば、例えば「ある数までの素数を全て表示するプログラムをJavaScriptとPHPで書いてくれ」と言えばすぐさま両方で書いてくれる。しかも細かいところも質問にも丁寧に答えてくれた。こうなるとAI様さまだ。

日本古典文学とAI

しかしここで話題にする日本の古典文学の事となるとまだまだ。これはデータが少ないためだろう。ここのところ勉強していた江戸時代の井原西鶴について聞いてみたところだいぶ嘘を言われた。これもいずれは良くなるだろうが、今の状態では使えない。これを知識のない学生が鵜呑みにしたら大変だ。

AIくずし字認識アプリ

だが、この分野でAIを使った素晴らしいプログラムがあるのを見つけた。これはタイ人の若い女性が開発の中心になったものだが、これまで解読が難しかった江戸時代以前のというか明治時代以前と言ったらいいか、いわゆる変体仮名というか、くずし字というか、そうした文字で書かれた古典文書を解読するアプリだ。このアプリ、かなりの精度で古典文書を現代のテキストに変換できると言うのだ。実際にやってみたがなかなかのものだ。もちろんAIを使っている。これなどまさに古典研究にITが生かされた例である。

またこれを外国人である若い女性の研究者が開発の中心になったと言うことも驚きだ。しかしこれは外国人だからこそと言うところもあるかもしれない。日本の研究者であれば、自力で読めることが当たり前とされているから、こんな事は考えなかったかもしれない。しかし古典はそのままで読まなければならないと言うものでもない。研究者でなければ、現代表記どころか、もちろん口語訳で読んでも構わないし、漫画で読んだとしても古典を読むことに全く変わりは無いはずだ。この辺の事は結構こだわる人もいるかもしれないが、日本は実に多くの古典文学を持っているのに、それを一部の研究者のものだけにしておくのは全く惜しいことだからだ。

さて、このアプリ、源氏物語の「澪標(みをつくし)」から「みを」と名付けられ、スマホで使うアプリとしても配布されている。(この辺の事情については以下に詳しい。http://codh.rois.ac.jp/miwo/)これによって今まで現代表記にならなかった文書も多く現代表記化されるに違いないし、今国会図書館が進めている書籍の電子化にも寄与するに違いない。実はこの件も井原西鶴を勉強していていた過程で、ネットを色々検索していて知ったのだ。大きな一種の副産物だった。

「青空文庫」のKindle化

もう一つ副産物の話題。これも古典研究とITの話題ということになろうかと思う。

それは以前にも2回ブログに書いた「青空文庫」とKindleの話だ。その続編というか、訂正版というか、現在使える版ということになるかと思う。以前の記事は以下で読めるはずだ。

青空文庫をKindleで読むには(Mac編)

MACでAozoraEpub3.jarが動かなかった件

さて、今回は何を書くかというと、一つはこうしたプログラムというか、ITを使ったやり方は日々変化してしまうということだ。

今回井原西鶴に続いて、上田秋成という江戸時代の文学者の文章を勉強することになったのが、その上田秋成の代表作が「青空文庫」に電子化されていることを知り、だったらそれを以前のようにKindleで読めるようにしようとした。しかし、これが簡単にいかなかったのだ。

以前の記事にようにやればうまくいくと思っていた。しかし、自分がボケていたのか、忘れていたのか、すぐにはうまくいかなかった。これについては二つの場合で書かなくてはならない。即ちMacBookの場合とWIN10の場合だ。

MacBookAirの場合

まずはMacBookAirの場合。実は最近初期化をしてしまったのだ。しかもOSをバージョンアップしている。以前の記事にあるようにこの「青空文庫」のKindle化はJavaのアプレットを使う。そのためそのアプレットをもう一度持って来なくてはならない。ただここまでは難なくできた。バックアップから持ってくることができた。しかし変換してみると文字化けしている。これはこの青空文庫のエンコードがシフトJISのためだ。そこで青空文庫のテキストデータを一旦エディタで開き、UTF-8に変換してから読み込ませなければならない。これまでの記事ではこれに触れていないので、付け加えておくことにする。

WIN10の場合

これはもっと厄介だった。Javaのアプレットそのものはあったのだが、全く動かない。実はJavaそのものがなかったためだった。そこで以前のように導入したが、これでもだめだった。これはJavaのライセンスの問題のようだった。つまりオラクルのJavaが使えないことになっていて、オープンのJavaを導入しなくてはならないようだ。そしてもう一つKindle化するために必要なkindlegenというプログラムがないということだ。これは以前の記事で書いたようには配布されていない。そこでどうするかというとKindelpreviewerというプログラム内にあるので、それをコピーしてこのアプレットがある場所におく必要があるということだ。

要するに「青空文庫」という素晴らしいプロジェクトによって電子化された多くのテキストをこれまた素晴らしいデバイスであるKindleで読むという素晴らしい体験をするために努力された多くのプログラマに感謝するが、それにしてもパソコンの環境が色々変わると大変だ。

現在の「青空文庫」のKindle化(簡略に)

Javaの導入
MACの場合は不要・WINの場合はオープンJavaを導入
https://www.javadrive.jp/start/install/index1.html
AozoraEpub3の導入
Vectorから入れるのが簡単だが、やたらCMがあるので注意する
https://www.vector.co.jp/soft/winnt/writing/se522586.html
Kindle Previewerの導入
https://kdp.amazon.co.jp/ja_JP/help/topic/G202131170
これはkindlegenのため

あとはこれまでの記事による。

ちょっと話が長すぎた。

2024.07.04

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です