AI（機械学習）を利用したOCRの認識精度

このTipsでは、昨今主流となっている機械学習を利用したOCRの認識精度について紹介します。クラウドサービスとAIの利用で、どこまで認識できるか興味がある方は参考にして下さい。

検証には、OCR de PawSのOCR機能を利用しています。 OCR機能として、現バージョンでは次の3種類のOCRサービスが利用できます。

Microsoft Azure
Google Cloud Platform (GCP)
Windows10標準のOCR（AIやクラウドを利用しない従来のOCR）

それぞれの特徴の違いなどを知ることができます。

なお、検証パターンは、２回の記事に分けて紹介する予定です。

AzureのOCRサービスでは、次の2種類が使用できます。

Read APIを使用したOCR
OCR APIを利用したOCR

１．Read APIを使用したOCR

AIを利用したOCRサービスです。手書き文字の認識にも対応しています。ただし、現在サポートされている言語は欧米系のみです。

２．OCR APIを使用したOCR

従来のアルゴリズム（AI未使用）を使用したOCRサービスです。27言語に対応しており言語の自動検出も可能です。日本語のOCRを使用したい場合は、こちらを指定する必要があります。

認識精度は、機械学習を利用したRead APIのほうが圧倒的に高精度です。
サポート言語に関しては、Azureの制限事項を参照して下さい。

GCPのOCRサービスでは、次の2種類のモードが使用できます。どちらもAIが使用されています。

一般的な画像に適したOCR
文書に適したOCR

１．画像に適したOCR

一般的な画像からテキストを検出する場合に適しています。

２．文書に適したOCR

高密度のテキスト画像やドキュメントなどに最適化されます。

検出する言語や、画像内のテキスト位置によっては、精度に大きな違いが発生する場合があります。

Windows 10のSDKを使用したOCRサービスです。AIを使用しない従来からのアルゴリズムで実装されています。
しかし、オフラインで動作するため高速で処理され、クラウド側にデータを渡す必要がないのでプライバシーを保護できます。

最初の検証は、日本語の縦書きです。縦書きの精度を検証すれば横書きの精度に関しては推測できると思うので、ここではあえて縦書きのみ行います。

１．ルビを含まない文章

最初は、ルビを含まない次の画像からテキストを検出します。（電子書籍から切り取った画像）

GCP
われわれのように地球物理学関係の研究に従事しているものが国々の神話などを読む場合に一番気のつくことは、それらの説話の中にその国々の気候風土の特徴が濃厚に印銘されており浸潤していることである。たとえばスカンディナヴィアの神話の中には、温暖な国の住民には到底思いつかれそうもないような、驚くべき氷や雪の現象、あるいはそれを人格化し象徴化したと思われるような描写が織り込まれているのである。それで、わが国の神話伝説中にも、そういう目で見ると、いかにも日本の国土にふさわしいような自然現象が記述的あるいは象徴的に至るところにちりばめられているのを発見する。
ほぼ完璧に検出できました。

Azure (OCR API)
徴が濃厚に印銘されており浸潤していることである。たとえばスカンディナヴィ織り込まれているのである。れているのを発見する。を読む場合に一番気のつくことは、それらの説話の中にその国々の気候風土の特にふさわしいような自然現象が記述的あるいは象徴的に至るところにちりばめらべき氷や雪の現象、あるいはそれを人格化し象徴化したと思われるような描写がアの神話の中には、温暖な国の住民には到底思いっかれそうもないような、驚くそれで、わが国の神話伝説中にも、そういう目で見るとわれわれのように地球物理学関係の研究に従事しているものが国々の神話など、いかにも日本の国土
文字としては検出できているのですが、各文章の順番がバラバラで縦書きは苦手なようです。

Windows 10標準
われわれのように地球物理学関係の研究に従事しているものが国々の神話などを読む場合に一番気のつくことは、それらの説話の中にその国々の気候風土の特徴が濃厚に印銘されており浸潤していることである。たとえばスカンディナヴィアの神話の中には、猛暖な国の住民には到底思いっかれそうもないような、驚くべき氷や雪の現象、あるいはそれを人格化し象徴化したと思われるような描写が織り込まれているのである。、いかにも日本の国土それで、わが国の神話伝説中にも、そういう目で見るとにふさわしいような自然現象が記述的あるいは象徴的に至るところにちりばめられているのを発見する。
一部文章の順番がおかしくなっている箇所は有りますが、縦書きでも予想以上の健闘をしました。

２．ルビを含む文章

次は、ルビを含む画像からテキストを検出します。（電子書籍から切り取った画像）

GCP
あめのたぢからおのみこと記紀にはないが、天手力男命が、引き明けた岩戸を取って投げたのが、とがくしやま虚空はるかにけし飛んでそれが現在の戸隠山になったという話も、やはり火山爆発という現象を夢にも知らない人の国には到底成立しにくい説話である。
ルビも取得していますが、ほぼ完璧に検出できました。

Azure (OCR API)
虚空はるかにけし飛んでそれが現在の戸隠山になったという話も、やはり火山爆発という現象を夢にも知らない人の国には到底成立しにくい説話である。記紀にはないが、天手カ男命が、引き明けた岩戸を取って投げたのが、あめのたちからおのみこととがくしやま
文字としては検出できていますが、やはり各文章の順番がバラバラで縦書きは苦手なようです。

Windows 10標準
あめのたちからおのみこと記紀にはないが、天手カ男命が、引き明けた岩戸を取って投げたのが、とがくしやま虚空はるかにけし飛んでそれが現在の戸隠山になったという話も、やはり火山爆発という現象を夢にも知らない人の国には到底成立しにくい説話である。
一部の文字検出に誤りが有りますが、ほぼGCPと同等の結果で予想以上の健闘をしました。

AIを利用したGCPが優秀であることは当然として、Widows 10標準のOCRが大健闘しました。同じMicrosoft製品なのですが、AzureのOCR APIはアルゴリズムが異なっているのでしょうか・・・。

ここでは、マンガの吹き出しの検証を行います。日本語と英語の吹き出しで検証しています。複数の吹き出しを使用した、少し意地悪な検証です。

１．縦書き日本語と複数の吹き出し

最初は、縦書きの日本語と２つの吹き出しを含む次の画像からテキストを検出します。（電子書籍から切り取った画像）

GCP（一般的な画像モード）
耕作《ん計域… pSRこるな
うまく検出できないようです。AI搭載のGoogleでも無理なのか・・・・？

GCP（文書モード）
耕作くん写真わたしにも一枚もらえないかな?
モードを変更すると、今度はほぼ完璧に検出できました。

Azure (OCR API)
もらえないかな ? わたしにも一校
右側の吹き出しが全く検出できなく、しかも文章の順番がバラバラでやはり縦書きは苦手なようです。

Windows 10標準
写真 : わたしにも一校もらえないかな ?
健闘したのですが、右側の吹き出しが全く検出出来ませんでした。

２．英語と複数の吹き出し

次は、英語で２つの吹き出しを含む次の画像からテキストを検出します。（電子書籍から切り取った画像）

GCP（一般的な画像モード）
SO WHY DO YOU NEED THESE RATINGS? DON'T TV NETWORKS JUST PUT ON WHAT THEY DAMN WELL PLEASE ANYWAY? OH NO, NOT AT ALL, SON. TV PROGRAMMERS FOLLOW THE DATA WE COLLECT VERY CAREFULLY SO THAT THEY DONT ACCIDENTALLY PUT ON ANY- THING THAT MIGHT BE NEW OR INNOVATIVE. OR GOOD. C 0000
画像内の絵を間違って文字として検出している箇所も有りますが、ほぼ完璧に検出できました。

GCP（文書モード）
SO WHY DO YOU NEED THESE RATINGS? DONT TV NETWORKS JUST PUT ON WHAT THEY DAMN WELL PLEASE ANYWAY? OH NO, NOT AT ALL, SON TV PROGRAMMERS FOLLOW THE DATA WE COLLECT VERY CAREFULLY SO THAT THEY DON'T ACCIDENTALLY PUT ON ANY- THING THAT MIGHT BE NEW OR INNOVATIVE OR GOOD 0 0 0 0
一般的な画像モードとほぼ同様です。しかしこのモードでは、「DON'T TV」等の記号が上手く検出できていません。

Azure (Read API)
OH NO, NOT AT ALL, SON. SO WHY TV PROGRAMMERS FOLLOW DO YOU NEED THE DATA WE COLLECT VERY CAREFULLY THESE RATINGS? DON'T TV SO THAT NETWORKS JUST THEY DON'T PUT ON WHAT ACCIDENTALLY THEY DAMN PUT ON ANY- WELL PLEASE THING THAT ANYWAY? MIGHT BE NEW OR INNOVATIVE OR GOOD 60 0 0
GCPと同様に文字としてはほぼ完璧に検出できています。ただし、単純に水平方向で検出した順番で出力しているため吹き出し毎のテキストが分離されていません。

Windows 10標準
00 YOJ NEED THESE DON -r NETWOE<S ous-r ON WHAT WELL PLEASE OH No, NOT AT ALL. s.ot.å TV FOLLOW DATA WE COLLECT CAQEFUL.LS SO THAT eoNT Acc I DENTALLY T HING MIGHT BE NEW
解説は控えさせていただきます・・・。

AIを利用したGCP及びAzureとも、文字の検出精度は非常に優秀であることがわかるのではないでしょうか。 Azureの場合は、検出後の順番などはプログラマー任せという仕様でしょうか・・・。

ここでは、動画再生中にフレーム内の一部を切り出した検証を行います。ピンぼけしている映像を使用した、少し意地悪な検証です。

１．ピンぼけした文字（日本語）

最初は、日本映画の背景で映像として流れていた、少し文字フォーカスがあいまいな画像からテキストを検出します。（動画フレームから切り取った画像）

GCP（一般的な画像モード）
あなたの街の安心キャッシング蔵の屋質買取くらのや質買取脱売·預りもしています駅より徒歩 2 分 $310-0783 軽に
誤検出も有りますが、大健闘しています。

GCP（文書モード）
あなたの街の安心キャッシングくらのや質買取販売・預りもしています駅より徒歩2分「310-0783 蔵の屋
このモードの方が、誤検出は少ない結果になりました。大健闘です。

Azure (OCR API)
メ、あなたのの第ン、安心ャッシンク・く 6 のー蔵の屋質買取欺た・湫りもしてい寸
やはり厳しい結果になりましたが、横書きではWindows 10標準OCRより検出できた文字数が多くなっています。

Windows 10標準
欺た・湫りもしてい寸く 6 のー蔵の屋質買取
最も検出できた文字数が少ない結果となりました。

２．ピンぼけした文字（英語）

次は、海外ドラマの背景でニュース映像として流れていた、少し文字のフォーカスがあいまいな画像からテキストを検出します。（動画フレームから切り取った画像）

GCP（文書モード）
Panera went online with a record-setting fifty million unique souls and visitors. The aggressive chain restaurant's stock is soaring after buying Facebook earlier this year. Insiders and sources close to the industry say that *Acon' is entirely unlike any of the other post-life experiences. “We've crafted this very special place to be everything you've ever dreamed of every thrill and excitement inherent is such a charged environment," a Panera representative. craftsmanship and attention to detail is astounding. 'Aeon' happes to be my personal choice as a post-life experience, and I'm actually really looking forward to it!" says - The
AeonがAconやAeonと混在していたり、記号と文字以外の誤検出は有りますが精度はかなり高いです。モードを変更しても結果は同じでした。

Azure (Read API)
Panera went online with a record-setting fifty million unique souls and visitors. The aggressive chain restaurant's stock is soaring after buying Facebook earlier this year. Insiders and sources close to the industry say that "Acon" is entirely unlike any of the other post-life experiences. "We've crafted this very special place to be everything you've ever dreamed of every thrill and excitement inherent is such a charged environment," says a Panera representative. " The craftsmanship and attention to detail is astounding. "Acon" happes to be my personal choice as a post-life experience, and I'm actually really looking forward to it!"
AeonをAconと検出していますが、その他は記号を含めてほぼ完璧です。

Windows 10標準
P•er• •eat • b earl —rees say ••We•ve very dre tera exe— b • ei•rvd era— b
・・・。

AIを利用したGCP及びAzureとも、文字の検出精度は非常に優秀であることがわかります。 Azureの場合、英語の検出精度ではGoogleに勝るケースもみられます。

ここでは、デジカメで撮影した画像の一部を切り取った検証を行います。少し斜めになっている、意地悪な検証です。

１．縦書きの看板（日本語）

最初は、観光地でよく見かける観光名所の説明を表示した看板からテキストを検出します。（デジカメ画像から切り取った画像）

GCP（文書モード）
ドリ of によらいぞうそん五智如来地蔵尊この五智如来地蔵尊は、寛文の初め頃(一六六三年)相州岩村 (神奈川県足柄下郡)の網元朝倉清兵衛の娘が九歳で身ごもり、その安産を大室山浅間神社に祈願したところ、無事安産したので「おはたし」と称してお礼に、真鶴石で五智如来蔵を作らせ、船で城ケ崎の富戸港に運び、富戸の強力兄弟が、一体を三回に分けて背負い、計十五回で現在地に安置されたと伝えられています。昔から願い事をかなえて下さる優しい心の神様として、伊豆、相模、附近の方々の信仰が深く、特に安産と縁結びの神様として参詣が多い。
ルビの検出が変ですが、ほぼ完璧に検出出来ました。なお、モードを変更してもルビの検出は同様でした。

Azure (OCR API)
県足柄下郡 ) の網元朝倉清兵衛の娘か九歳て身こもり、その安産を大室山浅間神社に祈願したところ、無事安産したので「おはたし」と称してお礼に、真鶴石で五智如来蔵を作め頃 ( 一六六三年 ) 相州岩村 ( 神奈川らせ、船で城ヶ崎の富戸港に運び、富戸の強力兄弟が、一体を三回に分けて背負い、計十五回で現在地に安附近の方々の信仰か深く、特に安産置されたと伝えられています。優しい心の神様として、伊豆、相模、と縁結びの神様として参詣が多い。五智如来地蔵尊昔から願い事を「かなえて」下さるこの五智如来地蔵尊は、寛文の初らいしそうそん
文字の検出自体は良いのですが、やはり縦書きの場合、順番がおかしくなります。

Windows 10標準
こちによらいしぞうそん五智如来地蔵尊この五智如来地蔵尊は、寛文の初め頃 ( 一六六三年 ) 相州岩村 ( 神奈川県足柄下郡 ) の網元朝倉清兵衛の娘か九歳て身こもり、その安産を大室山浅間神社に祈願したところ、無事安産したので「おはたし」と称してお礼に、真鶴石で五智如来蔵を作らせ、船で城ヶ崎の富戸港に運び、富戸の強力兄弟が、一体を三回に分けて背負い、計十五回で現在地に安置されたと伝えられています。昔から願い事を「かなえて」下さる優しい心の神様として、伊豆、相模、附近の方々の信仰か深く、特に安産と縁結びの神様として参詣が多い。
GCPで検出できなかった記号やルビも検出しています。予想外の大健闘です。濁点のあるひらがなが上手く検出できていない以外は、GCP以上の検出結果です。

２．縦横混在の看板（日本語と英語混在）

次は、縦書きと横書き、さらに日本語と英語が混在している看板からテキストを検出します。（デジカメ画像から切り取った画像）

GCP（一般的な画像モード）
東天狗岳すのばち池。黒百合平 Mt.Higashitengudake Suribachiike Ponds-Kuroyuridaira Plain 茅野市
文書モードより誤検出が多いようですが、大健闘しました。

GCP（文書モード）
東天狗岳すりばち池・黒百合平 Mt.Higashitengudake Suribachiike Ponds•Kuroyuridaira Plain ここは天狗の奥庭上端, 野市
ほぼ完璧に検出していますが、文字以外の誤検出と一般的な画像モードで検出できた茅野市が検出できていません。

Azure (OCR API)
東天狗岳・こ・「」こは天狗の奥庭上一」、一
予想通りですが、残念な結果になりました。

Windows 10標準
東天狗岳・こ・「」こは天狗の奥庭上一」・一
Azureとほぼ同じ結果になりました。

AIを利用したGCPでは、縦書きと横書き、日本語と英語が混在する画像でも文字の検出精度は非常に優秀であることがわかります。また、背景が無地で高解像度画像の場合、非AIのOCRでもかなり良い検出結果になることも分かりました。

背景が無地でない場合やレイアウトが複雑になるほど、従来のOCRアルゴリズムでは検出が困難になります。技術の変化を改めて実感された方も少なくないと思いますが、AIに置き換わっていく時代が着々と進行しているということになります。

Googleドライブを利用すると、少し手間と時間がかかりますが無料で機械学習を使用したOCRを試してみる事が可能です。なお、モードの変更などができないため、画像によっては誤検出するケースも多いです。
やり方は、切り取った画像をファイルにしアップロードを行った後に、Googleドキュメントで開くという手順になります。

クラウドの基本的な知識が有る方は、OCR de PawSを試してみて下さい。切り取った画像を貼り付けるだけで、モードの違いなども試すことができるようになります。

次回は、もう少し複雑なパターンと翻訳の検証を行った結果を紹介する予定です。

HOME > Various Tips > OCRと翻訳 > AIを利用したOCRの認識精度

AI（機械学習）を利用したOCRの認識精度　　(2020/07/15 New)

概要

AzureのOCRサービス

GCPのOCRサービス

Windows 10標準のOCRサービス

日本語の縦書き検証

マンガの吹き出し検証

動画フレームの検証

デジカメ画像の検証

まとめ

更新履歴

2020.07.15

2020.06.05

2020.06.04