HOME > ソフトウェア > OCR de Paws > Azureの制限事項


Azureの制限事項  2020/07/24 Update

PaaSを提供する各プロバイダーは、サービスの品質を維持するために一定の制限事項を設けています。 ここでは、Azureが提供するOCRと翻訳サービスに関連する制限事項について説明します。
また、それらの制限に基づいたアプリの仕様についても記載しています。

なお、制限事項については、プロバイダー側で常に変更される可能性があります。 そのため、ユーザー自身で最新の情報を参照するようにして下さい。

OCRサービス

AzureのOCRサービスでは、Read APIとOCR APIを利用したサービスが提供されています。
Read APIは、Microsoftによる最新の認識モデルを使用したサービスです。通常のテキストに加えて手書きのテキストもサポートしています。 従来の認識モデルを使用したOCR APIと比較した場合、認識精度が飛躍的に向上しています。
ただし、現時点でサポートされている言語は、欧米系のみです。 そのため、サポートされていない言語を利用する場合はOCR APIを選択する必要があります。

OCR de PawSは、これらのAPIを自由に切り替えて利用できるようにデザインされています。



サポート言語(全サブスクリプション共通)
API サポート言語
Read API 英語、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語、オランダ語

手書き文字の検出に関しては、英語のみサポート
OCR API アラビア語、簡体中国語、繁体中国語、チェコ語、デンマーク語、オランダ語、英語、
フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、日本語、
韓国語、ノルウェー語、ポーランド語、Portuguese、ルーマニア語、ロシア語、
セルビア語 (キリル)、セルビア語 (ラテン)、スロバキア語、スペイン語、スウェーデン語、
トルコ語


制限事項
サブスクリプション Azureによる制限 アプリ内制限
F0(無料) Read APIでは、複数ページを持つPDF及びTIFFファイルの場合、先頭2ページのみ処理される。 また、複数の画像ファイルの一括処理が制限されている。
OCR APIの場合、上記制限は明記されていないが上限の詳細については不明。(筆者の環境では30ページ程度のPDFファイルは処理可能であった)

なお、どちらのAPIでも1分間に20トランザクション及び、トータルで1月毎に5,000トランザクションの制限がある。
アプリ内でも、Azureの制限を超えないように同様なページ制限と速度調整を行っている。
また、Read APIでは、複数の画像ファイルを指定された場合に、先頭の3ファイルのみ処理を行うことができる。

OCR APIでは1分間で20ページ未満に収まるように制限している。
なお、上限が不明であるため多くのページを含むドキュメントを処理したい場合は、SLAが提供されている有料サブスクリプションのS1を契約することを推奨。
また、複数の画像ファイル指定時に、最大100ファイルを一括して処理することができる。
処理可能な画像フォーマットに関しては、アプリ内で全てBMP形式に変換しているため気にしなくても問題ない。不正な場合はエラーが表示される。
TIFFファイルに関しては、現在調整中のため未サポートとしている。
S1(標準) 全APIで、複数ページを持つPDF及びTIFFファイルは1分間で最大200ページの制限がある。
また、複数の画像ファイルを指定した一括処理が可能。

なお、どちらのAPIでも1秒間に10トランザクションの制限がある。(最大 200ページ(1分間))
1ヵ月のトランザクション制限数は1,000,000。
アプリ内でも、Azureの制限を超えないように念のため速度調整しているが、一般的な回線速度を考慮すると未調整でも1分間に200ページの処理は難しい。
Read API及びOCR APIとも、複数の画像ファイル指定時に、最大100ファイルを一括して処理することができる。

対応する画像フォーマットに関しては、F0と同様。

OCRサービスでは、テキスト検出のみに対応しています。そのため、厳密では有りませんが1トランザクションは1画像の認識で問題ありません。 PDFなどの複数ページを持つドキュメントの場合は、1ページが1トランザクションとしてカウントされます。




翻訳サービス

V3 translation APIを使用し、翻訳元テキストの言語については自動検出に対応しています。

カスタム翻訳については調整中です。



制限事項
サブスクリプション Azureによる制限 アプリ内制限
F0(無料) 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、200万文字。
1ヶ月あたりの最大文字数は、200万文字。
現バージョンでは複数ファイルの連続翻訳をサポートしていないため、速度調整は行っていない。
また、1回の翻訳で可能な最大要求文字数に関しては、4万文字を最大として1リクエスト5,000文字以内に収まるように分割して処理している。

なお、5,000文字以内に改行を全く含まないテキストは、エラーになる可能性があるため注意する。
S1(標準)/S2/C2 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、4,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。
S3(標準)/C3 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、12,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。
S4(標準)/C4 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、20,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。

文字数は、マルチバイトも1文字としてカウントされます。空白や改行も1文字としてカウントされます。





更新履歴

2020.07.24

 
  • OCRサービスの制限事項に、複数の画像ファイル指定時の制限事項を追加

2020.07.15

 
  • OCRサービスにサポート言語を追加

2020.05.19

 
  • 新規追加