◆ドイツ語本を解読する!◆


ドイツの飼育技術はァァ世界一ィィ…なのかどうかはわかりませんが、ことペット関係の書籍の充実っぷりは目を見張るものがあります。

しかし、内容を理解しようにもドイツ語は難しく、解読は全然進みませんでしたので、OCRと翻訳サービスを使っていんちきな翻訳を試みました。正直なところ、この方法は慣れるまでわりとめんどくさかったです。ですが作業を進めるうちに一定の手順が出来上がったので、その手順を紹介します。

この方法は、本全体を読み取るにはちょっときついと思います(パソコン上での作業が苦にならない人ならいけるかもしれません)。また、ところどころ間違いも生じてました。そのため本の一部分だけをざっくりと理解したいというときに有効だと感じました。

 


ファイルの名前とサイズ はこんな感じです

使用するOCRソフトはドイツ語対応で無ければいけません。フリーウェアで探したところ2つ見つかり、両方試したところsofti free OCRが圧倒的に正確に認識してくれました。そのためsofti free OCRがお勧め、、、なのですがこのソフトは現在配布されておりません…。数年前はフリーウェアだったのですが、現在は配布が停止され後継のプログラムがシェアウェアになっています。

しかし、裏技があります。softi free OCRはもとがフリーウェアなので海外のサーバーとかにいっぱい落ちてます。現在使用しているバージョンの「freeocr21.exe」とかで検索すると多分入手できますが、入手したプログラムに対してはウィルスチェックはしっかりしといた方がよいと思います。もし試される場合は自己責任でお願いします。あと、ドイツ語のライブラリー(tesseract-2.00.deu.tar.gz)が必要となります。これは現在でも配布されています。


ファイルの名前とサイズ はこんな感じです
2010.01.23追記
通常、softiOCRのインストールには以下のアプリケーションが必要であることを書くの忘れていました。自分のパソコンを再インストールした時にようやく気付いた次第です。いずれもフリーのアプリケーションです。

インストーラ
WindowsInstaller-KB893803-v2-x86.exe

DOTNETFIX
dotnetfx.exe


 

freeOCRの準備はこんな感じです。まずfreeOCRをインストールすると、インストール先のtesseractフォルダ内にtessdataフォルダができますので、

 

初期状態では英語のライブラリ(eng.〜)があるかもです
そこにtesseract-2.00.deu.tar.gzをし解凍したファイルたちを投入します。tar.gz形式のファイルを解凍できるソフトが必要ですね。これも、ちょっと探せばフリーの解凍ソフトが見つかると思います。これで準備は完了です。
 

次に画像の準備です。TWO-Pは解像度400dpi・白黒モードでスキャンしました。もっと低い解像度でも大丈夫かもしれません。カラーモードより白黒モードの方が認識率が高いです。
 

画像処理ソフトで文章以外の部分を消去し、傾きがある場合は修正して文を水平にします。傾きが大きくなるに従い認識率が下がるようです。
 
freeOCRを起動してfile→openで画像ファイルを開き、language(赤丸の部分)をengからdeuに変えてOCRをクリック。
見事認識されました。このあと連続で画像を開いてOCRすることも可能でした。ドイツ語対応だけあってウムラウトなどもばっちりです。

読み取りミスが多発する場合は元画像のシャープネスを上げると改善されることがありました。それでも十分な認識率に達しない場合は、近似色の選択などを使用して文字の部分だけを切り取り、白い台紙に貼り付けてからOCRするとうまくいくことがありました。

このままだと単語がハイフン(-)をつけて改行され、途切れているのでハイフンと段落記号を消して単語をくっつける必要があります。最初は手動で消してましたが、とてもやってられませんでしたので途中からはwordで"置換"のワイルドカードをオンにして検索する文字列を -^13 、置換後の文字列を何も無しでまとめて置換し、消去しました。次に検索する文字列を ^13 で、置換後の文字列のところに半角スペースを入力して置換しました。
 

現在のGoogle翻訳とは画面が異なります

その後得られたテキストデータをもとに翻訳サービスで翻訳を試みました。ドイツ語→英語であればけっこう正確ではないかなといった感じです。このことをドイツ語ペラペラの人に話したところ、「ドイツ語と英語は似てるからね」とのことでした。このことからもけっこう正確だと感じたのもあながち間違いではないでしょう。なお、このサービスはドイツ語のHPを見るのにも重宝しますね。 ドイツ語→日本語も試してみましたが、現時点では英語に比べるとまだ実用的ではないように感じました。

 

前述のように英語であれば大体それっぽい文章になります。英語を読むのも一苦労ですが、ドイツ語を読むよりははるかにマシでした。今回のように機械に翻訳を任せた場合、間違えるときは文脈を無視して豪快に間違えるので、間違いに気付くことが多かったです。 なにぶん機械任せな方法ですので完全ではありませんでしたが、大意は読み取れました(おそらく)。

なお、このページを書くにあたり数年前の翻訳データと現在の翻訳サービスを比較してみたところ、数年前に比べて翻訳の精度が上がっているのを感じました。結構マニアックなドイツ語の単語もしっかり英語に変換してくれましたし、ドイツ語→日本語も以前ほど無茶苦茶な翻訳ではありませんでした。今後も日本語訳の更なる進歩に期待したいです。