日本語 OCR のお試し版比較
目次
概要
読取革命Ver.15、e.Typist v.15.0、 ABBYY FineReader 14のお試し版をダウンロードして使ってみました。
- 「読取革命Ver.15」(1万円弱)は2012年9月に発売された OCR で、日本語と英語に対応。
- 「e.Typist v.15.0」(12,800円)は2013年9月に発売された OCR で、58ヵ国語に対応。お試し版は日本語と英語だけの機能しかありません。
- 「ABBYY FineReader 14」(2万円)は2017年2月に発売された OCR で、192の言語に対応。スキャナSV600の付録になっている「ABBYY FineReader for ScanSnap」は富士通のスキャナ専用に特化していますが、読み取りの性能はこれと同等か、これ以前のバージョンと同等のはずです。
サンプル文書別の報告
「キクタン」と「新しい家族信託」は、以前にテキスト化したものから抜粋、他の4つは手元にあった書類の一部分を読み取らせました。報告内容は煩雑なので、この節を読み飛ばして、「まとめ」の節に行っても構いません。
キクタン
読取革命、 e.Typist 、 ABBYY のどれでも、レイアウト指定した枠ごとに言語を指定できる。 また、1つのページのレイアウト指定をテンプレートとして保存することもできるので、他のページが同じレイアウトならば、保存しておいたテンプレートを呼び出すだけで正しいレイアウトが指定される。 キクタンほどの複雑な文書では、どのソフトウェアでもレイアウトの指定にかなり手間がかかるが、 e.Typist は縦横の区切り線を指定することができ、それにしたがって自動的に枠を分離してくれるので使いやすい。
新しい家族信託
読取革命と e.Typist では、レイアウト枠の読み取り順序を指定できるので、読み取り順の間違いによる文章の破壊を事前に防ぐことができる。 ABBYY は読み取り順序を直す機能がない。読まない図などを読み取り枠から外すことはできる。 ABBYY は無駄な改行をしないが、改行だったところに半角スペースが入るので、読み上げへの影響を防ぐため、読み取り結果から半角スペースを削除する必要がある。 読取革命と e.Typist では、読み取り前に改行の設定を変更しておくことで、無駄な改行を防ぐことができる。
縦書・2段組・ルビ付き
読取革命と e.Typist の漢字の読み取り精度を比較すると、やや読取革命の方が高い。 e.Typist はルビ(ふりがな)の処理ができる。ルビを「削除」「文章中に挿入」「そのまま」の3種類の処理から選択できる。 読取革命はルビを1行と見なして別行を立ててしまうので、読み上げ前にルビの行をすべて手作業で消さないといけない。 ABBYY の読み取り精度はやや低い。ルビは無視している。行の折り返しだったところには半角スペースが入る。
縦書・フランス語混在
ABBYY はフランス語部分以外はだいたい読み取れるが、行の折り返しだったところに半角スペースが入る。 読取革命と e.Typist の読み取り精度を比較すると、日本語部分は読取革命のほうがやや高い。フランス語部分の読み取りはどちらも不正確で、読取革命ではアクサンを無視し、 e.Typist ではアクサン付きの文字を他の文字として認識するという性質がある。 読取革命では、フランス語のアルファベットをすべて全角文字として認識していたが、認識前にアルファベットを半角として読み取るように設定すれば半角文字に直った。欧文を半角にしておくことは、読み上げソフトで言語指定するために必要。
横書・文献リスト・フランス語混在
どの OCR でも、レイアウト枠を指定して言語を指定すれば、欧文・日本語ともに、だいたい正しく読み取れる。 ABBYY ではフランス語を選択できるので、アクサンも正しく読み取られた。 e.Typist はお試し版ではフランス語が選択できないが、正規版にはフランス語が含まれるので可能になると思われる。読取革命で英語以外の欧文を正しく読み取らせることはほぼ不可能。 ただし、 ChattyInfty3 AITalk 版は ShiftJIS エンコーディングで読み上げの処理をしており、 UTF-8 エンコーディングのテキストを読み上げさせることが出来ないので、外国語の文字に関する正確さは無駄になる。 ChattyInfty3 SAPI5版は、 UTF-8 エンコーディングのテキストを読み上げさせることができるが、日本語のアクセント調整はできない。 不要な改行は、 ABBYY では自動的に消える。読取革命と e.Typist では、読み取り前に指定しておけば無くなる。
横書・ルビ・囲みコラム・英語混在
読取革命は、横書文書のルビを無視する。 e.Typist はルビの処理を指定できる。 ABBYY はルビを別行立ての文と見なしてしまう。 本文中に混在する英文は、どの OCR でも正しく読み取れた。読取革命でも、全角文字にならなかった。
まとめ
ルビの処理と操作の簡単さを考慮すると e.Typist が良さそうです。 ルビのない縦書きの文章なら読取革命が良さそうです。 以下の6項目は、判定基準ごとに各 OCR の性質をまとめたものです。
読み取り精度
日本語だけの文章の読み取り精度・日本語文に欧文が混在した文章の読み取り精度とも、横書きでは e.Typist の方が他の2つより若干高く、縦書きでは読取革命の方が他の2つより若干高い。欧文だけの読み取り精度はどれも同程度。
レイアウト枠と読み取り順序の指定
読取革命と e.Typist はだいたい同等の機能がある。操作しやすいのは e.Typist の方。
- e.Typist の、縦横の区切り線指定をして自動的に枠組が変更される仕組みは、キクタンのような複雑なレイアウトを読み取るときに便利。
- 読取革命の読み取り順序指定では、必ず1番目から指定しないといけないが、 e.Typist は途中の番号から指定開始できた。これは指定する枠の個数が多いときにとても便利。
ルビ
ルビの処理方法を指定できるのは e.Typist だけ。 e.Typist のルビ設定は「削除」「文章中に挿入」「そのまま」から選択できる。
- 標準的な読み方のルビが多い場合は、ルビがなくても ChattyInfty3 が正しく読み上げることが多いので、「削除」を選ぶ。
- 普通と違う読み方のルビが多い場合は、「文章中に挿入」を選ぶと良い。すると、ルビが括弧に入って文中に挿入される。ルビが次のような形式になるようにテキストを加工しておくと、 ChattyInfty3 でインポートしたときに自動的にルビになる。
例:一度|浅間《あさま》の爆発を
改行
- ABBYY では常に、無駄な改行をしない。その代わり、文の折り返し部分だったところに半角スペースが入るので、読み上げさせる前に半角スペースを削除する必要がある。
- e.Typist では「改行コード挿入指定」の3種類の選択肢「ブロック改行」「毎行改行」「自然改行」から選択でき、「ブロック改行」か「自然改行」を選択すると、不要な改行が入らない。
- 読取革命ではメニューの「領域」の「属性変更」で、改行を「自動判定」としておけば、不要な改行が入らない。
全角・半角
- ABBYY と e.Typist ではアルファベットが半角として認識されるので問題ない。
- 読取革命では、特に欧文混じりの縦書文書を読み取るときにアルファベットを全角として読み取ってしまうので、読み取り前に設定変更する必要がある。メニューの「領域」の「属性変更」で、アルファベットを「半角」、数字を「半角」、カタカナを「全角」と指定しておけば、読み上げソフトで使いやすいテキストが得られる。
ファイルを開く機能
ABBYY、読取革命、e.Typist のどれでも、pdfから各ページの画像ファイルを抽出する機能を備えているので、pdfを開いて OCR にかけることができる。
テキスト形式で保存する機能
ABBYY はテキストを UTF-8 エンコーディングで保存する。 e.Typist と読取革命はエンコーディングを選べる。