GoogleドキュメントのOCR機能が日本語にも対応。いまのところPDFは完璧。

GoogleドキュメントのOCR機能が日本語に対応

2011-03-02 | Sigeo | 0 | カテゴリ Google 全般, WEBツール・サービス

日本語のPDFファイルをGoogleドキュメントのOCR機能で取り込む

英語版などでは既に対応していたGoogleドキュメントのOCR機能。もしかしたら日本語でもできるんじゃないかと、何度も試してがっかりしたものです。

そのOCR機能が、ついに日本語にも対応したようです。

日本語のPDFファイルをGoogleドキュメントのOCR機能で取り込む

GoogleドキュメントのOCR機能は、PDFファイルや画像ファイルをGoogleドキュメントへアップロードすると、ファイル内の文字を読み取って、テキストデータを起こしてくれるもの。

アップロード時に「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」にチェックを入れると、OCR機能が作動するようになっています。

PDFをOCRにかけた場合

アップロードしたPDFファイルの下に読み取ったテキストが表示されます。

↑テキストの部分に関しては完璧に読み取ってくれました。しかし、PDFファイルの中に画像が入っていると、画像部分に表示されているテキストが文字化けしてしまうようです。

この例では、前半部分がPDFのテキスト部分、そして後半部分が画像から読み取ったデータになっています。

画像をOCRにかけた場合

↑PDFでも画像部分が弱かったのですが、画像だけで読み取ってみると、やはり文字化けしてしまうようです。

そこで解像度をあげてみました

↑画像解像度を上げれば読み取れるのではないかと思い、iPhoneで撮った写真をOCRにかけてみました。しかし改善は見られず。。。

ところで「墓繋パタ鞠テキ襲わレー」って何?(笑)

OCR機能を使う方法

OCR機能を使う手順
↑まずGoogleドキュメントのファイルアップロード画面で、「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」にチェックを入れます。

次にドキュメントの言語を「日本語」にして「アップロードを開始」ボタンを押せばOKです。

早速試してみたい方はGoogle ドキュメント – ファイルのアップロードへどうぞ。

これで画像からの読み取りが精度を増すと、いままでできなかったことが一気にできるようになりそうですね。非常に楽しみです。

Via:Docs Blog

サンコー A4サイズ スーパースリムハンディスキャナ USPS41A4 <35093>サンコー A4サイズ スーパースリムハンディスキャナ USPS41A4 <35093>
価格:¥ 9,800
平均評価:★★★★☆
納期:在庫あり。
Amazon で詳細を見る by iPhoneで会社を活性化
スポンサードリンク

この記事を読んだ方は以下の記事もご覧いただいています

  • このエントリーをはてなブックマークに追加

コメントする