※この記事にはプロモーションが含まれています。

暗号化PDFを翻訳するにはGoogle翻訳じゃダメ!

英語のPDFファイルを日本語訳してくれるソフトとかWEBサービスのほとんどは、PDFファイルからテキストを抽出して翻訳する方式をとっている。そういった直接翻訳の手段をとっているシステムに暗号化されたPDFを翻訳させると”Encrypted”的なエラーが返ってくる。結果、部分的にしか翻訳できなかったり、エラーで全く進まなかったりする。


ヒルトン・グアムで2013年9月26日に爆発事故があったのだが、年末に旅行をする際の宿泊候補の1つだったので、原因調査の結果が気になっていたのだが、それがやっとヒルトン・グアム公式サイトにPDFで公開された。英語のPDFをダウンロードして日本語訳しようと、Googleのドキュメント翻訳を利用したら、こんな結果に。

honyaku07

重要な部分が全く翻訳されていないので用をなさない。暗号化されているのに部分的にでも翻訳されている方が不思議というべきか。

フリーのPDF→Word変換ソフト「FREE PDF to WORD CONVERTER」でWord文書にしてから訳させればいいかと思って変換をかけたら、さすがに暗号解除はしてくれないらしく、”It may be encrypted or corrupted”ってエラーが出る。

この手の暗号化PDFはドキュメント保護のための処置で、企業発信のPDFはほとんど暗号化されているから不便。考えてみれば情報保護が当たり前の今の時代、巷にはGoogle翻訳では翻訳できないファイルばかりが飛び交っているのではないのだろうか。

暗号化PDFの場合の対処方法は1つ。昔ながらのOCR翻訳である。昔はスキャナーでPDFドキュメント(紙)を読み取ってそれをOCRソフトでドキュメント化して翻訳させる方法が主流だった。今もそれをWEB上でやってくれるサービスがある。

Free Online OCR」というOCRサービスサイト。このサイトにアクセスしてPDFファイルを指定してConvertをするだけで、ファイルのOCR処理→Doc変換→翻訳してくれる。

honyaku10

honyaku11 honyaku12

元データと翻訳結果はこんな感じ。翻訳能力はんぱねえ!

honyaku00

honyaku14

ようやく読めた。日本語訳完璧!かどうかよくわからないが、昔の翻訳ソフトとは違って、きれいな文章になるね。驚いた。今回の「Free Online OCR」というOCRサービス、とってもありがたいサービスなので今後も末永く続いてほしいものだ。

それにしてもヒルトン・グアムも日本人観光客が多いんだから日本語訳のPDFも出せばいいのに、と文句を言いたい。えっ?英語ぐらい勉強しろって?すみません、がんばります。

この記事の執筆者:おき兄(おきにい)
PCで遊び続けて数十年。ガジェット好き。マザーボードに美しさを感じる系の人。子供の頃からいろいろなものを組み立てたり壊したりしてました。最近はVR/MR的な世界に傾倒しつつあります。
スポンサーリンク

シェアする

フォローする

スポンサーリンク