Scannableはおそらく画像処理がOCR活用向き?

最近色々イケてないと言われるEvernoteですが、私にとっては生活必需品なので相変わらず使い続けています。Evernote Marketが終わってしまうのは残念でしたよー。カバンに靴下に名刺入れに…、すごく愛用してましたから。もっとも採算取れてるのかなとは心配していましたが予想通り取れていなかったようです。

それはさておき、年始よりウェブサイト強化の一環で過去に作成した「フランスの最も美しい村」関連の投稿の整理とグレードアップを行っていますが、いま現地で買った公式ガイドブックを翻訳して自分の言葉に直してサイト情報の充実を測るのに利用したいと考えています。しかし、そこまでフランス語は堪能ではないので、一度ガイドブックの内容をテキストデータ起こしてネットやアプリなどを用いてわからない単語を調べたりしたい

そんなときに大活躍の予感がするのが「Scannable」というアプリ。

写真を撮ってスキャンするだけのアプリ。名刺(日本語もOK)に限ってはOCRが備わっているのですがそれ以外は基本OCRは有効ではありません。

名刺以外は、画像もしくはpdfでの保存となります。しかし、画層処理がよいのでしょうか、一度Scannableで読み取ったpdfを別のOCRソフトで解析すると、非常に良い精度でテキストを認識してくれると思います。おそらくコントラストの調整が上手なのでしょう。

僕はAdobe AcrobatのOCR機能を利用してみました。(他に無いからです。CS6時代の名残で使えます。)青いハイライトの部分がテキスト読み取りができた箇所。ほぼ網羅しているのではないでしょうか。

※著作権を考慮しモザイクかけています。

そのテキストをコピーするとこのような感じでテキストデータが取得できます。

Forteresse perchée sur une falaise surplombant les gorges les I’ Ardeche (mais encore dans le departement du Gard !), Aigueze protege son patrimoine medieval, cultive Ia vigne et entretient Ia bonne humeur conviviale de ses habitants. Comme tout stte de defense strategtque, Aigueze a connu un passe tumultueux. Oe 725 a 737, ce sont les sarrasins qut occupent Ia reg ton; lls laissent leur nom a l’une des tours du vlllage. La fortiftcatlon du St te datequantaeile du xfS. : …

ここまで読み取れていれば十分でしょう。

さあ、これで現地で買ってきたいろいろな文献のテキストを読み込むことができる!頑張って勉強して訳さなければ。Google翻訳も使いますけどね笑。

プロフィール

都内の会社に務める傍ら、休暇を利用して旅行をしたり音楽活動をしているビジネスマン。趣味は、旅行、音楽など。旅行はヨーロッパが中心、現地でレンタカーを借りて旅することにはまっています。フランスの最も美しい村全156箇所を完全制覇!音楽はクラシックが中心。ヴァイオリンの演奏もします。最近は健康のためにランニングを開始。マラソンも。Marathon du Médoc 2014含む数回のフルマラソンを完走しています。