GoogleドキュメントのOCR機能が日本語に対応
英語版などでは既に対応していたGoogleドキュメントのOCR機能。もしかしたら日本語でもできるんじゃないかと、何度も試してがっかりしたものです。
そのOCR機能が、ついに日本語にも対応したようです。
日本語のPDFファイルをGoogleドキュメントのOCR機能で取り込む
GoogleドキュメントのOCR機能は、PDFファイルや画像ファイルをGoogleドキュメントへアップロードすると、ファイル内の文字を読み取って、テキストデータを起こしてくれるもの。
アップロード時に「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」にチェックを入れると、OCR機能が作動するようになっています。
PDFをOCRにかけた場合
アップロードしたPDFファイルの下に読み取ったテキストが表示されます。
↑テキストの部分に関しては完璧に読み取ってくれました。しかし、PDFファイルの中に画像が入っていると、画像部分に表示されているテキストが文字化けしてしまうようです。
この例では、前半部分がPDFのテキスト部分、そして後半部分が画像から読み取ったデータになっています。
画像をOCRにかけた場合
↑PDFでも画像部分が弱かったのですが、画像だけで読み取ってみると、やはり文字化けしてしまうようです。
そこで解像度をあげてみました
↑画像解像度を上げれば読み取れるのではないかと思い、iPhoneで撮った写真をOCRにかけてみました。しかし改善は見られず。。。
ところで「墓繋パタ鞠テキ襲わレー」って何?(笑)
OCR機能を使う方法
↑まずGoogleドキュメントのファイルアップロード画面で、「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」にチェックを入れます。
次にドキュメントの言語を「日本語」にして「アップロードを開始」ボタンを押せばOKです。
早速試してみたい方はGoogle ドキュメント – ファイルのアップロードへどうぞ。
これで画像からの読み取りが精度を増すと、いままでできなかったことが一気にできるようになりそうですね。非常に楽しみです。
Via:Docs Blog
- サンコー A4サイズ スーパースリムハンディスキャナ USPS41A4 <35093>
- 価格:¥ 9,800
- 平均評価:★★★★☆
- 納期:在庫あり。
- Amazon で詳細を見る by iPhoneで会社を活性化
この記事を読んだ方は以下の記事もご覧いただいています
- 前の記事: Facebookのフレンドの連絡先を、Googleの連絡先やCSVでエクスポートできるChrome拡張
- 次の記事: 自分のサイトのChrome拡張機能を作れる「ExtensionFactory」
- ジャンル: Google OCR, Google ドキュメント