OCR         2022/07/29 Update

概要

このページでは、OCR各機能の詳細について説明しています。

基本的な操作に関しては、基本操作を参照して下さい。





OCR




OCRサービスの種類

OCR機能では、複数のOCRサービスを利用できます。 ここでは、各サービスの特徴とサービス毎のオプション機能について説明します。

 
1.利用できるOCRサービス

利用できるOCRサービスは、次のようになります。

  • In-App Standard OCR
  • Azure Computer Vision
  • Google Cloud Vision




● In-APP Standard OCR

オフラインで利用できる、OS標準のOCR APIを利用したサービスです。 AIを利用していない従来のアルゴリズムを使用しているため、認識精度は低くなります。
しかし、オフラインで処理されるため処理速度は高速です。 また、クラウド側へ画像データが送信されないため機密データの保護性が高いです。

オプション

検出言語 このOCRサービスは、言語の自動検出ができないため、検出前に適切な言語を指定する必要がある。 必要な言語は、ユーザー自身がOSの設定アプリで追加を行う。
半角スペースの除去 日本語選択時のオプション。 日本語選択時は、文字間に半角スペースが挿入された状態で検出される。 この半角スペースを除去し、読みやすくするための機能。




● Azure Computer Vision

Microsoftが提供しているPaaS(クラウドサービス)「Azure」を利用したOCRサービスです。 AI技術を使用したRead APIと従来のアルゴリズムを使用したOCR APIを選択できます。 両APIとも、自動言語検出に対応しています。
Read APIは、プレビュー版のv3.2 Preview 1 (2022年2月)で日本語のサポートを開始しました。 また、v3.2 GA (2022年5月)では、正式に日本語を含む164言語にサポート言語を拡張させています。 そのため、通常は認識精度が高いRead APIを選択することを推奨します。
なお、このOCRサービスを利用するには、事前にAzureのアカウント取得とPaaSの設定を済ませておく必要があります。
設定方法などについては、PaaSの設定手順「Azure」を参考にして下さい。

オプション

OCR検出モード Read APIまたはOCR APIを指定できる。通常は、認識精度が飛躍的に向上したRead APIを選択する。
Read APIを選択した場合は、プレビュー版の選択が可能となる。 プレビュー版選択時は、2022-01-30-previewが選択されます。
v3.2 GA (2022年5月)では、手書き文字を含めて日本語のに対応しています。 そのため、通常はプレビュー版を有効にする必要はありません。
AIのチューニングが異なるようなので、検出結果でプレビュー版のほうが好みであれば有効にしてみて下さい。
価格レベル Azureのポータルサイトで指定している価格レベルと同一のサブスクリプションを選択する。 F0(Free)選択時は、応答取得時の遅延タイムを指定できる。
インターネット回線速度が遅い場合や、大きいサイズの画像を解析する場合は待機時間が増えるため、 この値を調整することでトランザクション回数を節約できる。 ただし、値を大きくすると指定した間隔で待機するため、応答の受信が遅れる可能性があるので注意する。
半角スペースの除去 日本語選択時のオプション。 OCR API指定時に機能する。 In-APP Standard OCRのオプションと同様の機能である。




● Google Cloud Vision

Googleが提供しているPaaS(クラウドサービス)「Google Cloud Platform(GCP)」を利用したOCRサービスです。 AI技術を使用したOCRで、自動言語検出に対応しています。
なお、このOCRサービスを利用するには、事前にGCPのアカウント取得とPaaSの設定を済ませておく必要があります。
設定方法などについては、PaaSの設定手順「Google Cloud Platform」を参考にして下さい。

オプション

検出タイプ 画像か高密度画像を指定できる。
検出文字が多い画像や、複雑な構成の文字を検出したい場合は、高密度画像を選択することで検出結果が良くなることが多い。









出力モード

OCR検出テキストを表示する、出力モードについて説明します。


1.行モード

画像の様に、1行で完結するテキストを検出する場合に使用します。



2.文章モード

1行で完結しない文を検出する場合に使用します。 特に翻訳を行う場合は、文の切れ目を句点だけではなく改行でも判断されます。 そのため改行を文の切れ目として翻訳された場合、自然な翻訳になりません。
文の切れ目を正しく認識させたい場合に、このモードを指定すると便利です。









アペンドモード

1つの文が複数の画像を跨いでいる場合に、各画像から検出されたテキストを連結して出力できるモードです。 翻訳を行う場合は、1つの文に連結されることで、自然な翻訳結果を取得できるようになります。


1.動作例

次の例のように、2枚の画像に1つの文が跨って含まれている場合は、一つの文に連結して出力できます。



2.他の機能との連携

自動履歴登録、自動翻訳を有効にしている場合は、それぞれ次のような動作を行います。

自動翻訳 アペンドモードを終了させた時点で、自動翻訳が開始されます。
自動履歴登録 検出を行う全ての画像が履歴登録されます。
また、アペンドモードを終了させた時点で連結された文も履歴登録されます。









自動テキスト整形

自動テキスト整形を有効にしている場合は、検出を行った画像の座標を基にし、タイトルや段落などを解析し読みやすく整形して出力します。
また、スイッチを切り替える度に、整形したテキストと未整形のテキストを再読み込みして出力します。
日本語の縦書きでルビを含んでいる場合は、ルビを非表示します。 ただし、ルビと判断できなきかった場合は、出力結果の先頭もしくは最後にまとめて出力される場合もあります。


1.Azure選択時の動作

AzureのRead APIでテキストのソート(readingOrder)オプションを有効にしている場合は、次のように動作します。

日本語 readingOrderオプションは日本語に対応していない。 そのため、自動整形機能が優先してソートを行い出力する。
日本語以外 readingOrderオプションが優先される。 自動整形のソート機能は実行されず、整形のみ行う。









更新履歴

2022.07.29

 
  • OCRサービスの種類の「Azure Computer Vision」を、最新のv3.2 GA及びPreviewのサポート言語情報に変更

        印刷文字: 73 ⇒ 164言語、 手書き文字: 7 ⇒ 9言語

2021.03.05

 
  • 新規追加