図1.単文字と複数文字の読み取りイメージ


図2.複数文字認識の誤認識イメージ


図3.現在の複数文字認識イメージ


図4.手書き住所データと当社文字認識技術による読み取り(認識)結果

Edtech事業を展開する株式会社EduLab(本社:東京都港区、代表取締役社長 兼 CEO:高村 淳一、以下 EduLab)は、ディープラーニングに基づく手書き文字(日本語)認識技術の開発プロジェクトを2015年より進め、手書き文字(日本語)認識率において、2016年6月時点で業界トップレベルの文字認識率98.66%を実現しました。この時点で認識できた文字は、枠線内に書かれた手書きの単文字(日本語)でした。その後、開発を進め、より実際の答案用紙に近い枠線がない住所、名前等の手書きの複数文字に対して文字認識率93.5%を実現しました。(認識率は、人と読み取り結果が一致した割合。精度検証の対象としたデータは約35,000件)



画像1: https://www.atpress.ne.jp/releases/137271/LL_img_137271_1.png

図1.単文字と複数文字の読み取りイメージ



https://www.atpress.ne.jp/releases/137271/img_137271_1.png

図1:単文字と複数文字の読み取りイメージ





■開発の背景

日本の教育における、課題解決力を重視する傾向に伴い、入学試験、国や地方自治体の学力調査・各種検定試験等において記述式の解答方式が加速的に増えています。記述式の解答方式は人力で採点するため、採点に時間がかかり、採点費用の増大も大きな課題です。

そのような背景から、採点効率の向上を目指し手書き文字のテキストデータ化について検討を始めました。解答用紙に書かれた内容を人の手により入力しデータ化する作業では、これまで大幅な時間短縮が困難でした。また、スキャナを使用して解答用紙を読み取りデータ化を行う従来のOCR(Optical character recognition:光学文字認識)技術は、入力枠という制約が生じるだけでなく認識できない割合も一定割合以上発生し、試験の採点に耐えうる品質精度の確保は難しい状況でした。

当社は、ディープラーニングに基づく人工知能技術(AI)を活用した高精度な手書き文字認識技術の研究・開発を開始し、2016年に手書き単文字(日本語)認識率98.66%を実現いたしました。

( http://edulab-inc.com/press-release/20160706.html )





■複数文字認識技術の特徴

2016年時点の手書き単文字認識技術では下記の点が課題でした。



一文字の読み取りは高精度ですが、部首やつくりなどのパーツが組み合わさり一つの漢字となる日本語の特性上、複数文字を読み取る(認識する)精度は低くなりました。複数文字を読み取る(認識する)際に、誤った一文字に分割し読み取って(認識して)しまうという課題がありました。



https://www.atpress.ne.jp/releases/137271/img_137271_2.png

図2:複数文字認識の誤認識イメージ



そこで、人間が文字を読む時と同じように複数の文字を同時に読み込み、まとめて結果を出力するという方法から検討を進め、複数文字でも正しく文字を読み取る(認識する)新たな手書き文字認識技術を開発いたしました。新たなアプローチにより、複数文字を正しく一文字ごとに分割するプロセスを改善することができました。



https://www.atpress.ne.jp/releases/137271/img_137271_3.png

図3:現在の複数文字認識イメージ



開発にあたり、日本語の住所、名前、単語の手書き複数文字データを収集し人工知能(AI)に学習をさせた結果、住所の手書き複数文字データを読み取りにおいて93.5%の文字認識精度を達成しました。(*認識率は、人と読み取り結果が一致した割合。精度検証の対象としたデータは約35,000件)

下記は手書き住所データと文字読み取り(認識)結果例です。下記の例では複数文字の住所データ全てを誤りなく読み取り(認識)できています(文字認識精度100%)。



https://www.atpress.ne.jp/releases/137271/img_137271_4.png

図4:手書き住所データと当社文字認識技術による読み取り(認識)結果





■今後について

本技術は、住所だけでなく氏名、一般文書、業界特化型文書においても対応可能なため、データ収集及び人工知能(AI)の学習を繰り返し、引き続きテスト・開発を行って参ります。

また、クラウドアプリ化し、ニーズをお持ちのどのような業態の団体でも手軽にご活用頂ける環境を提供する予定です。



https://www.atpress.ne.jp/releases/137271/img_137271_5.png

図5:クラウドアプリ画面イメージ



手書き文字認識技術の精度を向上させるため、引き続きディープラーニングに基づく開発を進めます。そして手書き文字をテキストデータ化したテスト解答を自動採点する技術や、採点や採点プロセスの効率化・自動化を実現していくために人工知能(AI)技術に基づく開発を推進してまいります。





■株式会社EduLabについて

EduLabは、Edtech分野における新事業の開発・投資、教育ITソリューション・プラットフォームの提供、次世代教育の支援、スクールマネジメントなど、最新のラーニングサイエンスをベースに次世代の教育ソリューションを実現します。東京、シアトル、シンガポール、香港、北京、上海、バンガロール、プネを拠点として展開しています。



[会社概要]

(1)社名 : 株式会社EduLab

(2)代表者 : 代表取締役社長 兼 CEO 高村 淳一

(3)本店所在地: 東京都港区北青山三丁目2番4号

(4)設立年月 : 2015年3月

(5)資本金 : 3億86百万円

(6)Web : http://edulab-inc.com/

情報提供元: @Press