HOME > ソフトウェア > OCR de Paws > Azureの制限事項


Azureの制限事項

PaaSを提供する各プロバイダーは、サービスの品質を維持するために一定の制限事項を設けています。 ここでは、Azureが提供するOCRと翻訳サービスに関連する制限事項について説明します。
また、それらの制限に基づいたアプリの仕様についても記載しています。

なお、制限事項については、プロバイダー側で常に変更される可能性があります。 そのため、ユーザー自身で最新の情報を参照するようにして下さい。

OCRサービス

AzureのOCRサービスでは、Read APIとOCR APIを利用したサービスが提供されています。
Read APIは、Microsoftによる最新の認識モデルを使用したサービスです。通常のテキストに加えて手書きのテキストもサポートしています。 従来の認識モデルを使用したOCR APIと比較した場合、認識精度が飛躍的に向上しています。
ただし、現時点でサポートされている言語は、英語とスペイン語(プレビュー)のみです。 そのため、サポートされていない言語を利用する場合はOCR APIを選択する必要があります。

OCR de PawSは、これらのAPIを自由に切り替えて利用できるようにデザインされています。



制限事項
サブスクリプション Azureによる制限 アプリ内制限
F0(無料) Read APIでは、複数ページを持つPDF及びTIFFファイルの場合、先頭2ページのみ処理される。
OCR APIの場合、上記制限は明記されていないが上限の詳細については不明。(筆者の環境では30ページ程度のPDFファイルは処理可能であった)

なお、どちらのAPIでも1分間に20トランザクション及び、トータルで1月毎に5,000トランザクションの制限がある。
アプリ内でも、Azureの制限を超えないように同様なページ制限と速度調整を行っている。
OCR APIでは1分間で20ページ未満に収まるように制限している。
なお、上限が不明であるため多くのページを含むドキュメントを処理したい場合は、SLAが提供されている有料サブスクリプションのS1を契約することを推奨。

処理可能な画像フォーマットに関しては、アプリ内で全てBMP形式に変換しているため気にしなくても問題ない。不正な場合はエラーが表示される。
TIFFファイルに関しては、現在調整中のため未サポートとしている。
S1(標準) 全APIで、複数ページを持つPDF及びTIFFファイルは1分間で最大200ページの制限がある。

なお、どちらのAPIでも1秒間に10トランザクションの制限がある。(最大 200ページ(1分間))
1ヵ月のトランザクション制限数は1,000,000。
アプリ内でも、Azureの制限を超えないように念のため速度調整しているが、一般的な回線速度を考慮すると未調整でも1分間に200ページの処理は難しい。

対応する画像フォーマットに関しては、F0と同様。

OCRサービスでは、テキスト検出のみに対応しています。そのため、厳密では有りませんが1トランザクションは1画像の認識で問題ありません。 PDFなどの複数ページを持つドキュメントの場合は、1ページが1トランザクションとしてカウントされます。




翻訳サービス

V3 translation APIを使用し、翻訳元テキストの言語については自動検出に対応しています。

カスタム翻訳については調整中です。



制限事項
サブスクリプション Azureによる制限 アプリ内制限
F0(無料) 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、200万文字。
1ヶ月あたりの最大文字数は、200万文字。
現バージョンでは複数ファイルの連続翻訳をサポートしていないため、速度調整は行っていない。
また、1回の翻訳で可能な最大要求文字数に関しては、4万文字を最大として1リクエスト5,000文字以内に収まるように分割して処理している。

なお、5,000文字以内に改行を全く含まないテキストは、エラーになる可能性があるため注意する。
S1(標準)/S2/C2 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、4,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。
S3(標準)/C3 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、12,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。
S4(標準)/C4 1回の翻訳で可能な最大要求文字数は、5,000文字。
1時間あたりの最大文字数は、20,000万文字。
1ヶ月あたりの最大文字数は、従量制。
F0と同様。

文字数は、マルチバイトも1文字としてカウントされます。空白や改行も1文字としてカウントされます。