日本語 OCR のお試し版比較

目次

概要

読取革命Ver.15、e.Typist v.15.0、 ABBYY FineReader 14のお試し版をダウンロードして使ってみました。

サンプル文書別の報告

「キクタン」と「新しい家族信託」は、以前にテキスト化したものから抜粋、他の4つは手元にあった書類の一部分を読み取らせました。報告内容は煩雑なので、この節を読み飛ばして、「まとめ」の節に行っても構いません。

キクタン

読取革命、 e.Typist 、 ABBYY のどれでも、レイアウト指定した枠ごとに言語を指定できる。 また、1つのページのレイアウト指定をテンプレートとして保存することもできるので、他のページが同じレイアウトならば、保存しておいたテンプレートを呼び出すだけで正しいレイアウトが指定される。 キクタンほどの複雑な文書では、どのソフトウェアでもレイアウトの指定にかなり手間がかかるが、 e.Typist は縦横の区切り線を指定することができ、それにしたがって自動的に枠を分離してくれるので使いやすい。

新しい家族信託

読取革命と e.Typist では、レイアウト枠の読み取り順序を指定できるので、読み取り順の間違いによる文章の破壊を事前に防ぐことができる。 ABBYY は読み取り順序を直す機能がない。読まない図などを読み取り枠から外すことはできる。 ABBYY は無駄な改行をしないが、改行だったところに半角スペースが入るので、読み上げへの影響を防ぐため、読み取り結果から半角スペースを削除する必要がある。 読取革命と e.Typist では、読み取り前に改行の設定を変更しておくことで、無駄な改行を防ぐことができる。

縦書・2段組・ルビ付き

読取革命と e.Typist の漢字の読み取り精度を比較すると、やや読取革命の方が高い。 e.Typist はルビ(ふりがな)の処理ができる。ルビを「削除」「文章中に挿入」「そのまま」の3種類の処理から選択できる。 読取革命はルビを1行と見なして別行を立ててしまうので、読み上げ前にルビの行をすべて手作業で消さないといけない。 ABBYY の読み取り精度はやや低い。ルビは無視している。行の折り返しだったところには半角スペースが入る。

縦書・フランス語混在

ABBYY はフランス語部分以外はだいたい読み取れるが、行の折り返しだったところに半角スペースが入る。 読取革命と e.Typist の読み取り精度を比較すると、日本語部分は読取革命のほうがやや高い。フランス語部分の読み取りはどちらも不正確で、読取革命ではアクサンを無視し、 e.Typist ではアクサン付きの文字を他の文字として認識するという性質がある。 読取革命では、フランス語のアルファベットをすべて全角文字として認識していたが、認識前にアルファベットを半角として読み取るように設定すれば半角文字に直った。欧文を半角にしておくことは、読み上げソフトで言語指定するために必要。

横書・文献リスト・フランス語混在

どの OCR でも、レイアウト枠を指定して言語を指定すれば、欧文・日本語ともに、だいたい正しく読み取れる。 ABBYY ではフランス語を選択できるので、アクサンも正しく読み取られた。 e.Typist はお試し版ではフランス語が選択できないが、正規版にはフランス語が含まれるので可能になると思われる。読取革命で英語以外の欧文を正しく読み取らせることはほぼ不可能。 ただし、 ChattyInfty3 AITalk 版は ShiftJIS エンコーディングで読み上げの処理をしており、 UTF-8 エンコーディングのテキストを読み上げさせることが出来ないので、外国語の文字に関する正確さは無駄になる。 ChattyInfty3 SAPI5版は、 UTF-8 エンコーディングのテキストを読み上げさせることができるが、日本語のアクセント調整はできない。 不要な改行は、 ABBYY では自動的に消える。読取革命と e.Typist では、読み取り前に指定しておけば無くなる。

横書・ルビ・囲みコラム・英語混在

読取革命は、横書文書のルビを無視する。 e.Typist はルビの処理を指定できる。 ABBYY はルビを別行立ての文と見なしてしまう。 本文中に混在する英文は、どの OCR でも正しく読み取れた。読取革命でも、全角文字にならなかった。

まとめ

ルビの処理と操作の簡単さを考慮すると e.Typist が良さそうです。 ルビのない縦書きの文章なら読取革命が良さそうです。 以下の6項目は、判定基準ごとに各 OCR の性質をまとめたものです。

読み取り精度

日本語だけの文章の読み取り精度・日本語文に欧文が混在した文章の読み取り精度とも、横書きでは e.Typist の方が他の2つより若干高く、縦書きでは読取革命の方が他の2つより若干高い。欧文だけの読み取り精度はどれも同程度。

レイアウト枠と読み取り順序の指定

読取革命と e.Typist はだいたい同等の機能がある。操作しやすいのは e.Typist の方。

ルビ

ルビの処理方法を指定できるのは e.Typist だけ。 e.Typist のルビ設定は「削除」「文章中に挿入」「そのまま」から選択できる。

改行

全角・半角

ファイルを開く機能

ABBYY、読取革命、e.Typist のどれでも、pdfから各ページの画像ファイルを抽出する機能を備えているので、pdfを開いて OCR にかけることができる。

テキスト形式で保存する機能

ABBYY はテキストを UTF-8 エンコーディングで保存する。 e.Typist と読取革命はエンコーディングを選べる。