電子書籍 4 12/08/16

電子書籍
4
12/08/16
またまた、電子書籍の件であります。読み飛ばすか、
無視して下さい。
いままでの、電子書籍の作成は、
1.青空文庫のテキストをベースに、文字の追加、ルビの追加、などを行う。
2.ネット上で探してきたテキストをベースに青空文庫形式に修正後、
1.を行うの二通りでしたが、三番目が追加されることになった。
理由は、単純。
ネットで無料で入手出来るのは、原則著作権が消え、パブリック・ドメインに入った
五十年以上前の古い書籍のみ。 しかし、最近、まだ著作権が有効な書籍も読みたくなり、
電子書籍ショップを当たり出した。
特に、自宅で蔵書として書棚にはあるが、
一般に文字が小さく読みにくかったり、ハード・カバー本で、持ちにくかったりする類の
書籍。
確かに、紙の書籍より、二割引き程度で売っている。
それで、サンプル
(書籍の最初の十ページほど)をダウンロードして見てみた。しかし、これが問題。
紙本と比べると電子本では、レイアウトが悪化している。
電子本では紙面の大きさが違うためある程度は、悪化するのは避けられないが、
たとえば本文とルビとの関係が、全く駄目。ルビの打ち方(打つ位置)、大きさが、
紙本と大幅に異なる。
出版社は新潮社。
考えられない悪化。
多分、電子本化に当たって、経験のあるレイアウト屋が参加せず、
IT 専門家と称する若い人に任せっきりになっているのだと思う。
天下の新潮社でさえ、こんなことが行っている。
致し方ない。
自分でやるしかない、ってことになった。
ご承知のように、「自炊本」っていうのが流行っている。
書籍を裁断し、イメージ・スキャナーに
掛けて、PDF 化する方法です。
これ用のイメージ・スキャナーがバカ売れしている。
古巣の子会社 PFU が有名。また、書籍を預かり、裁断し、スキャナーに掛け、
PDF 化する自炊代行ビジネス、
さらには、自炊された後の裁断済本を販売するビジネスまである。
また、これが著作権違反として、裁判になるとか、店を閉めた、とか話題になっている。
自分でやる、と言っても、書籍を裁断するという荒技は
書籍愛好家としての私には出来ない。
それで、「無為庵乃書窓」で絵画に使った手法と同じ、カメラ撮り、を使うことにした。
書籍をページ・バイ・ページで画像化し、OCR ソフトに掛け、テキスト化し、
青空文庫形式に変換し、私好みのレイアウトの PDF にするという方法です。
OCR ソフトについては、5~6年前に、
種々の OCR ソフトを Winny で違法ダウンしたことがあり、
いろいろ試した経験がある。
その時、有名な「読んで、ココ」より、
フリーの「SmartOCR」というのが断然優れていたのを CD 化していたので、
これを利用することにした。
このソフトは、このソフトを開発販売していたソフト会社が廃業後、無償、
但しヘルプなし、で公開していたもの。(今は、この公開サイトは閉鎖されている)
操作が極く単純であるのに関わらず、認識率か極めて高く、第三水準、第四水準の文字ま
で認識できる。
その上、最もやっかいなルビを、青空文庫形式で本文に埋め込む機能まである。
ただし、アルファベットが入ると、文字化けが多発。
やっと、260ページ程ある一冊目をやったが、写真撮りから、その画像の若干の整形、
OCR ソフトを掛けて、テキスト化。
大体1ページで5~10文字の修正。青空文庫形式への変換、そして PDF 化、で大体2週
間掛かった。
OCR 後の文字校正が一番時間が掛かる。でも、なんとか巧くいったので、今後あれも、こ
れも、電子化したくなってきた。
しかし、現在、10件ほどの書籍が、それぞれ前記した2つの方法で電子化中なので、
3方式をパラランしながら、まあ、月一冊強程度のペースで電子書籍が生まれて来ればよ
かろうと、思っている。
現時点の報告、以上のとおり。
では、また
森寺章夫
電子書籍
3
12/08/07
またまた電子書籍奮闘記の報告。
但し、ヤッサンさえ、呆れて、読んでくれそうにないから、HP へのアップは、
しないでね。読み飛ばすか、読まないで結構です。
私の心覚えを兼ねて、厚かましく、ヤッサンにメールしているのだから。
先日、フォントとして『IPAmj 明朝』でいくことにしたと書いたが、大失敗であった。
我が Sony Reader 殿では、フォント数が増えると、
ページ送りが遅くなることが明確になった。
第二水準までぐらいなら問題ないが、第三水準、第四水準、
或いは第四水準以上のフォントを多数使用すると、ページ送りがどんどん遅くなることが
判明。
この件を、Sony の相談窓口に問い合わせたところ、お粗末な回答があった。
これに対する私から、再度の問い合わせたメール、及びその返事を、以下に。
私の Sony 窓口へのメール
【使い方相談窓口】担当:** 殿
貴回答にある『ファイル容量や、ファイルに使用されているフォント、
グラフの有無等により、読み込みの速度が変わって参ります。』というのは、
それなりに理解出来ます。
しかし、しかし、
SD カードを外し、内藏メモリに
1PDF ファイルのみ収容した場合にも、
ページめくりに
一分近く掛かり、とても使用に耐えられません。
試しに、同一書籍を、フォントを埋め込まない PDF として作成し、
同様の條件で、ページめくりをすると、
第二水準までしかフォントが入っていない貴内藏フォント・セットでは、
文字化けが多数発生するものの、一秒以内で表示可能です。
これは、貴 Reader のソフトが、ページめくりの時毎に、書籍ファイルから、
フォント・リストを作成して描画しているのではないかと、推測されます。
今回使った書籍は、特殊な物ではなく、青空文庫にアップされている
南方熊楠「十二支考」で、第三水準、第四水準の漢字も
埋め込んだ PDF
IPAmj 明朝フォントを使用して、
です。
貴 Reader のソフトは、当初の英語版を前提にした、
また、フォントはあくまで内藏フォント使用を前提としたアルゴリズムで
開発されている、と思われます。
せいぜい数百フォントで書籍が構成されるアルファベット使用国と異なり、
日本では、第二水準までで6千強、第四水準まで、約一万のフォントを使います。
最近の書籍の多くは、第二水準までで済ませている事が多いですが、
明治、大正、戦前の書籍では、第三、第四水準、書籍によってはそれ以上の表外文字が使
われています。
また、書籍によって、明朝体を始め、種々の書体が使用されるという、海外とはかなり異
なった出版文化を持っています。
したがって、ソフト・アルゴリズムを、書籍ファイル起動時にフォント・リストの作成し
常駐させて、ページめくり時の速度を速めるか、ページ先読み機能をつける必要があるの
ではないでしょうか。
あるいは、ユーザーが自分の好みのフォント・セットをインストールでき、
書籍対応に選択出来るようにすることが、日本の書籍 Reader としては必須と考えます。
現在のユーザーの多くが、電子書籍ショップにアップされている現代書籍や漫画を対象に
していることから、小生の要求は過大と受け取られるかも知れませんが、
少なくとも、日本のメーカーが、『日本語対応の電子書籍リーダー』と銘打つからには、
真摯な対応を期待したい。
以上
これに対する Sony からの回答
森寺様
このたびは、何度もご返信のお手数をおかけいたしまして誠に申し訳ございません。
大変恐れ入りますが、現在 PDF ファイル(フォント表示)も含む『Reader Store』で提供し
ている
ファイル(.mnh)以外のファイルにおきましては動作検証を行っていないため、
ファイルによっては正常に表示できない場合や読み込みに時間がかかる場合がございます。
また、誠に恐縮でございますが、お伝えいただいた内容につきまして
現時点では『Reader』本体のソフトウェアアップデートなどによる
対応予定はございません。
ご希望に添えない案内となり誠に申し訳ございません。
しかしながら、お客様からのご意見は、早期に実現させることは難しい面もございますが、
今後のサービス改善および製品開発に役立てるよう関連部署に申し伝えます。
貴重なご意見をいただき、誠にありがとうございました。
あわせまして、せっかくお問合せをいただいております中、このような回答にとどまり
大変申し訳ございません。何卒、ご理解を賜りますようお願い申し上げます。
以上、本日は用件のみで失礼させていただきますことを、
重ねてお詫び申し上げます。
【使い方相談窓口】担当:**
と言う次第。
まあ、私のように自分で電子書籍を作成する、というような物好きは、
極々少ないでしょうから
メーカーとしては、致し方ないとは思うものの、
海外メーカーではいずれもユーザーによるフォント・セットのインストールを可能にして
いるから、Sony さんの企画段階での失敗だと思う。
この秋には、新しい
るのか
Sony Reader が発売される予定ですが、どこまで機能アップしてい
興味あるところです。
しかし、上記の理由で、今まで作成した電子書籍の作り直しをせざる得ないことになり、
この作業で、1~2週間掛かりそう。
以上、嵌り込んだ電子書籍の泥沼からは、当分抜け出せそうにありません。
森寺章夫