富士通、教師データ数を削減できる深層学習技術を開発
- 2017年02月21日 16:40:00
- テクノロジー
- JCN Newswire
本技術により、中国図書館などに大量に保管されている古文書文字の電子化を促進し、中国古文書の公共利用と歴史研究などの学術の発展に貢献することができます。
本技術の詳細は、1月31日(火曜日)に米国サンフランシスコで開催された国際会議「IS&T International Electronic Imaging Symposium 2017」にて発表しました。
開発の背景
中国には5000万冊以上の古文書が所蔵され、次世代への伝承や研究への活用が期待されています。しかし、これらの文化遺産は、時間の経過や閲覧などにより劣化や破損が進んでいます。
古文書を保管している各図書館において、古文書を電子画像として保存する作業が進められていますが、保全目的だけでなく、古文書のデータをICT技術で利活用していくためには、電子画像中の文字をテキストデータ化する必要があります。現在、この作業はごく一部の古文書について専門家が手作業で行っており、すべての古文書を電子化するためには多大な時間とコストが必要となっています。
課題
深層学習技術による文字認識では、あらかじめ、文字画像と正解とする文字を正しく紐づけた教師データを用いて認識エンジンに学習させます。このとき教師データの数が多いほど認識精度が高くなりますが、古文書文字への適用では十分な数の教師データを用意することに課題がありました。
これに対し、アルファベットなど文字の種類が少ない場合に、同じ文字をまとめた教師データを用いて特徴を学習させることで、少ない学習データで認識精度を高める手法が提案されていますが、多様な書体があり同じ文字でも異なる字形が多数存在する中国古文書には、適用することが困難でした。
開発した技術
今回、中国古文書の文字認識において、教師データが少ない場合でも、高精度な認識が可能となる技術を開発しました。開発した技術の特徴は以下の通りです。
1.限られた数の教師データに加え、教師データとして利用されていなかった文字画像データの活用
学習に利用できるデータを増やすため、これまで、正解の文字と対応づけられておらず教師データとして利用されていなかった大量の文字画像データを、学習
に活用します。図1のように認識エンジンXを利用して、文字画像データに仮の文字ラベルを付与し学習に利用できるようにします。この段階では、認識エンジンXは十分に学習できていないので、正解ではない仮の文字ラベルが付与された画像データが含まれます。
2.同じ文字ラベルを持つ文字画像の特徴パターンと、異なる文字ラベルを持つ文字画像の特徴パターンを比較し、その比較情報を元に認識エンジンを学習
仮の文字ラベルが付与された文字画像からランダムに二つの文字のペアを生成し、認識エンジンXの学習結果を反映させた、同じ構造の二つの認識エンジンY、Zに入力します。このとき、二つの文字が同じ文字か異なる文字かについての結果だけを基に認識エンジンXを学習させます。この手順を繰り返すことで、認識エンジンXの学習が進むに従い、正解ではない仮の文字ラベルの数は減少し、認識精度が向上していきます。十分に学習させた認識エンジンXで認識を実行することで、少ない数の教師データでも、高い認識精度を実現することができます。
効果
本技術を中国古文書文字認識用のデータとして公開されている1000枚の中国敦煌古籍文献画像(注2)を用いたベンチマークに適用しました。その結果、本技術適用前の、教師データのみを用いて学習する従来技術で得られる81%と同じ精度を、一文字当たり約70%少ない教師データ数で達成できました。また、本ベンチマークにおいて、一文字当たり50個の同じ数の教師データを用いて学習させた場合に、これまで報告されている82%に対して、本技術では88%の認識率を達成しました。
今後
FRDCは本技術を、中国各地の図書館や、古文書画像と検索などの利用ができる電子化テキストが一体に保って保管されている古文書データベース向けに、中国古文書電子化ソリューションとして展開していきます。本技術は日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効です。また、2018年度に当社のAI技術「Human Centric AI Zinrai(ジンライ)」への活用を目指し、限られた教師データで効果的に深層学習エンジンを学習させる仕組みを、例えば、多数の画像データを認識して分類するような、植物の識別など認識すべき対象が多い用途に適用していきます。
(本資料は、富士通研究開発中心有限公司が発行したプレスリリースの抄訳です。)
本リリースの詳細は下記URLをご参照ください。
http://pr.fujitsu.com/jp/news/2017/02/21.html
注釈
注1 富士通研究開発中心有限公司:本社 北京市、董事長 佐々木繁。
注2 中国敦煌古籍文献画像:中国国立図書館が公共・学術利用を目的にインターネット上で公開している古文書の画像と電子化テキストのセット。アクセス制限がなく幅広く利用できることから、古文書文字認識技術の認識精度ベンチマークで良く利用されている。
概要:富士通株式会社
詳細は http://jp.fujitsu.com/ をご覧ください。
Copyright 2017 JCN Newswire. All rights reserved. www.jcnnewswire.com
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
「ひまそらあかね」が突如トレンド入り!都知事選に出馬した暇空茜って一体どんな人?本物なの?
高城れに、超絶膝上ミニスカ姿披露!30歳ラストデイでボーナスショット大奮発
笠井信輔、都知事選「ポスタージャック」に「テレビはどう報道する?難しい局面いきなり大荒れ」
「THE SECOND」芸人の悩み不満明かす、2年連続決勝進出するも「行動には移さない、みんな」
日テレ水卜麻美アナの謝罪「個人に責任ない、謝り方ある」56歳元TBSアナ「24時間」めぐり私見
Number_i 全国7カ所ライブツアー&1stアルバム9・23に発売発表 単独ファイナル
【山梨】山梨学院、春夏連続甲子園へ初戦は笛吹戦 中原主将「大事なのは今までやってきた野球」
【オイシックス】「夢を掴め!」スペシャルグッズユニ発表 安城健汰「テンションも上がる」
3歳から幼なじみ34歳吉本コンビ、自身の「M-1」キャッチコピー不満「ずっと、の部分が嫌」
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
ダルビッシュ妻・山本聖子さん、車運転中に“まさか”の出来事「ミラー越しに後ろを覗くと…」
イケメンだから許される!堀北真希と山本耕史の「馴れ初め」が映画化希望するレベル
高橋洋子「生成AI」理由の出演辞退に反響「アニメと真面目に向き合っている」「勇気ある決断」
バキ童こと春とヒコーキのぐんぴぃが有吉の壁に登場!「笑いが止まらん」「地上波ゴールデンは草」
広瀬アリス「そりゃ売れるわ」友人・伊藤沙莉の人柄明かす「ただ仕草とか反応が全部おっさん」
「虎に翼」母・はるが…伊藤沙莉の演技力に反響「必死の説得」「映さない」「きれいに泣かない」
井上咲楽、イタリアでの“ぼったくり”被害を報告「めっちゃ後悔しています」
氷川きよし「ご無沙汰しています!久しぶりの再開です」インスタ過去投稿削除し、黒スーツ姿投稿
何があった!?「エアコン」が想定外の壊れ具合!投稿者に話を聞いた
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
松本人志飲み会参加セクシー女優「警察に相談しに行きました」報告「さすがにこれは酷すぎる」
現役女子大生グラドル、セクシー女優転身「私の全てを見ていただけると思います」
玉置浩二の妻、青田典子(53)の現在がとんでもない事になっていると話題に
『こんなに可愛かった赤ちゃん犬が…』完全に想定外な『まさかの成長』が面白過ぎると82万再生「爆笑したw」「柴らしさ全開で好き」と絶賛
ガーシーが綾野剛のLINE公開でネット騒然「ショック」「すごいエンタメ」
柏原崇(45)現在を調べてみた結果、相変わらずかっこよすぎた!
「愛が生まれた日」藤谷美和子(56)の現在がヤバい!?徘徊生活を送っていた過去も明らかに。
イケメンだから許される!堀北真希と山本耕史の「馴れ初め」が映画化希望するレベル
都知事選掲示板にヌードポスター ひろゆき氏「世も末」 SNSで批判噴出
「ひまそらあかね」が突如トレンド入り!都知事選に出馬した暇空茜って一体どんな人?本物なの?
高城れに、超絶膝上ミニスカ姿披露!30歳ラストデイでボーナスショット大奮発
笠井信輔、都知事選「ポスタージャック」に「テレビはどう報道する?難しい局面いきなり大荒れ」
日テレ水卜麻美アナの謝罪「個人に責任ない、謝り方ある」56歳元TBSアナ「24時間」めぐり私見
「THE SECOND」芸人の悩み不満明かす、2年連続決勝進出するも「行動には移さない、みんな」
Number_i 全国7カ所ライブツアー&1stアルバム9・23に発売発表 単独ファイナル
【山梨】山梨学院、春夏連続甲子園へ初戦は笛吹戦 中原主将「大事なのは今までやってきた野球」
【オイシックス】「夢を掴め!」スペシャルグッズユニ発表 安城健汰「テンションも上がる」
3歳から幼なじみ34歳吉本コンビ、自身の「M-1」キャッチコピー不満「ずっと、の部分が嫌」