社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE 二種類の SVM を用いたオンライン類似数式文字識別 糟谷 勇児† 山名 早人††, ††† †早稲田大学大学院理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1 ††早稲田大学理工学術院 〒169-8555 東京都新宿区大久保 3-4-1 †††国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2 E-mail: †kasuya-u@yama.info.waseda.ac.jp, ††yamana@waseda.jp あらまし 数式を効率よくコンピュータに入力する方法として、手書きの数式を認識し、コンピュータで利用可能な形式に 変換するシステムの開発が望まれている。しかし、数式中の文字や記号の認識は一般の文字と異なりrとγ、w とωのような類 似文字が多く存在するため困難である。そこで本稿では 2 種類の SVM (Support Vector Machine) を使い分け、類似の文字を精度 よく識別する手法を提案する。二種類の SVM とは(1)画像を入力として用いる SVM と(2)ペンの位置の時系列情報を入力とする SVMGDTW(SVM Gaussian Dynamic Time Warping)である。本手法により r とγは 86.7%、w とωは 85.6%で判別できることを確 認した。また本手法を DTW とテンプレートマッチングからなる認識手法と併用したところ、数字・英字・ギリシア文字・数式 記号からなるサンプル(全 106 文字)に対して 91.1%の認識率を得た。 キーワード 数式認識、オンライン手書き文字認識、SVM Recognition of Similar Character Pairs with Two Types of SVMs for Online Mathematical Expression Recognition Yuji KASUYA† Hayato YAMANA††, ††† †Graduate Scholl of Science and Engineering, Waseda University Okubo3-4-1, Shinjyuku-ku, Tokyo, 169-8555 Japan ††Science and Engineering Waseda, University Okubo3-4-1, Shinjyuku-ku, Tokyo, 169-8555 Japan †††National Institute of Informatics Hitotsubashi2-1-2, Chiyoda-ku, Tokyo, 101-8430 Japan E-mail: †kasuya-u@yama.info.waseda.ac.jp, ††yamana@waseda.jp Abstract Mathematical expression recognition systems which recognize mathematical expressions and translates them into digital data usable in computer is needed. However characters and symbols in mathematical expressions are sometimes similar and difficult to discriminate. This paper proposes a method to recognize similar character pairs with two types of SVM (Support Vector Machine). One is normal SVM which uses images of handwriting as input; the other is SVMGDTW which uses sequences of pen position. With the proposed method, “γ”and “r” are discriminated with a recognition rate of 86.7% , “ω” and “w” with 85.6%. Besides, the proposed method combined with DTW and template matching recognizes numbers, alphabets, Greeks and mathematical symbols (105 characters in total) with 91.1% recognition rate. Keyword Mathematical expression recognition, Online handwriting character recognition, SVM 1. は じ め に 式 サ ン プ ル の 採 取 を 行 っ て い る [5-6]。本 稿 で は 採 取 し 数式を効率よくコンピュータに入力する方法とし たサンプルを用い、数式に使用される文字や記号(以 て、手書きで書いた数式を認識し、コンピュータ上で 下 、数 式 文 字 )1 文 字 を 認 識 す る 手 法 に つ い て 述 べ る 。 使 用 可 能 な 形 式 に 変 換 す る シ ス テ ム (以 下 、数 式 認 識 シ 数式文字は数字、英字、ギリシア文字、数式記号か ス テ ム )の 開 発 が 望 ま れ て い る 。し か し 、数 式 は 分 数 や らなる。数式文字の認識と通常の文字認識が異なる点 累乗などの上下にも広がる構造を持つため、画像から は 、v と ν( ニ ュ ー )、K と κ( カ ッ パ )、r と γ( ガ ン の認識では文字の 1 つ 1 つを切り出すことが困難であ マ )、w と ω( オ メ ガ )の よ う に 、類 似 し た 文 字 が 多 数 る。そこで文字の切り出しが比較的容易に行える、ペ 存在することである。この問題に対してヒューリステ ンの位置座標の時系列情報(オンライン情報あるいは ィ ッ ク に 基 づ い た 方 法 [3] や 文 字 の 書 き 方 に 制 限 を 持 ストローク情報という)を利用した数式認識システム た せ る 方 法 [2]が 提 案 さ れ て い る が 、類 似 の 文 字 を 統 一 が 研 究 さ れ て い る [1-4]。筆 者 ら は オ ン ラ イ ン 数 式 認 識 的に扱う方法は提案されていない。より多数の文字を システムの作成を目指して、デジタルペンを用いて数 扱ったり、ユーザの筆跡に基づいた判別を行ったりす るためには、筆跡からの学習に基づく類似文字の判別 手法が必要である。 は低下すると考えられる。このように数式文字の認識 は英数字や漢字の認識と比較して精度が低い傾向にあ そ こ で 本 稿 で は 2 種 類 の SVM ( 画 像 を 入 力 と し て る 。こ の 原 因 と し て 数 式 に は 類 似 の 文 字 (γ と r 、κ と 用 い る SVM と オ ン ラ イ ン 情 報 を 入 力 と す る K 等 )が 多 い こ と が 挙 げ ら れ る 。そ こ で 特 に 類 似 の 文 字 SVMGDTW) を 使 い 分 け 、 類 似 の 文 字 を 精 度 よ く 認 識 を 判 別 す る 方 法 と し て [2]で は 、入 力 ス ト ロ ー ク の 開 始 する手法を提案する。 点、終点、屈曲点の前後でのストローク情報の変化な 以下、2 節ではオンライン手書き数式認識における 本 研 究 の 位 置 づ け に つ い て 、 3 節 で は SVM に つ い て 、 4 節 で は 提 案 手 法 に つ い て 、5 節 で は 提 案 手 法 を 検 証 す どから認識を行うという手法が用いられている。しか し、このようなヒューリスティックに基づく方法は ・ るための実験についてそれぞれ述べ、6 節でまとめを システムの設計者が認識対象ごとに対処法を考 えなければならないため、類似文字が多数ある 行う。 場合は対応が難しい ・ 2. オ ン ラ イ ン 手 書 き 数 式 認 識 あらかじめ設定された対処しか行わないため、 オンライン手書き数式認識はペン先の位置の時系 ユーザ個人の筆跡に適応させた認識ができない 列情報から認識を行い、コンピュータで扱うことがで 等の問題点がある。そこで本研究では類似の文字を統 きる形式に変換する作業である。本節ではオンライン 一 的 に 扱 う 手 法 と し て SVM を 使 用 し た 認 識 手 法 を 提 手書き数式認識について軽く触れ、本研究の位置づけ 案 す る 。SVM は 、サ ン プ ル か ら 学 習 を 行 う た め 、サ ン について述べる。 プルさえあれば自動で学習・認識ができ、ユーザ個人 一般にオンライン手書き数式認識は 3 つのフェーズ の筆跡に対応した認識が可能である。 3. S V M か ら な る [4]。 す な わ ち 、 SVM( Support Vector Machine) は 有 効 な 2 ク ラ ス 分 (1)文 字 の 切 り 出 し (2)切 り 出 し た 文 字 の 認 識 類の手法として、文字認識だけではなく、自然言語処 (3)数 式 構 造 の 構 成 理や、バイオインフォマティクスなど様々な分野で使 で あ る( 図 1)。(1)で は 手 書 き の 数 式 を 一 文 字 単 位 に 分 用 さ れ て い る 。 本 章 で は SVM に つ い て 簡 単 に 説 明 す 解 す る 。(2)で は (1)で 切 り 出 し た 文 字 を そ れ ぞ れ 認 識 し 文 字 を 判 別 す る 。(3)で は (2)の 結 果 か ら 分 数 や 累 乗 、上 る 。 詳 し く は [7]な ど を 参 照 さ れ た い 。 こ こ で は ク ラ ス A に 属 す る nA 個 の サ ン プ ル 付き下付きの数式などの数式の構造を判別する。 xi (i = 1,2,..., n A ) と ク ラ ス B に 属 す る nB 個 の サ ン プ ル xi (i = n A + 1,..., n = n A + nB ) か ら 、入 力 x が A と B の ど ち ら ストローク3 ストローク1 の ク ラ ス に 属 す る か を SVM を 用 い て 判 別 す る 方 法 に ペンの位置座標 ストローク2 オンライン情報 ∫ ∞ f( 0 t t (1)文字の切り出し つ い て 述 べ る 。た だ し こ こ で A を 正 の ク ラ ス 、 B を 負 の ク ラ ス と し 、yi = 1 (1 ≤ i ≤ n A ) , yi = −1 (n A + 1 ≤ i ≤ n) と な る 定 数 yi を 導 入 す る 。 SVM は ) dt ¥int{∞,0}¥frac{f(t),t^2}dt 2 (2)文字の認識 図 1 (3)数式構造の構成 数式認識の流れ n f ( x) = ∑ λi yi K ( xi , x ) + b i =1 (1) を 計 算 し 、 f ( x) ≥ 0 な ら ば 入 力 x を ク ラ ス A 、 f ( x) < 0 な の認識の結果は数式構造の基礎となるだけでなく、認 らば入力 x をクラス B として判別する。 式 (1) の λi は ラ グ ラ ン ジ ュ 乗 数 で あ り 、サ ン プ ル か ら 識結果をフィードバックすることで、より正確に文字 の 学 習 に よ り 決 定 す る 変 数 で あ る 。 λi の 値 は 以 下 の 式 の切り出しを行うことを可能にする。このため、数式 (2) を 満 た し つ つ 式 (3) 最 大 化 さ せ る こ と に よ り 決 定 す 文字を精度よく認識する手法を研究することは数式認 る。 本 研 究 は (2)の 文 字 の 認 識 に 関 す る も の で あ る 。文 字 識システムを構築する上で最重要の課題である。 既存の研究では、数式文字の認識を行う手法として、 隠 れ マ ル コ フ モ デ ル を 用 い た 方 法 [1]、 2 次 元 ワ ー プ 法 を 用 い た 方 法 [3] な ど が 提 案 さ れ て い る 。 し か し 、 [1] n ∑ λi yi = 0 i =1 n ∑ λi − i =1 1 n n ∑ ∑ yi y j λiλ j K ( xi ⋅ x j ) 2 i =1 j =1 (2) (3) の 手 法 は 英 字 で 89.2%、 ギ リ シ ア 文 字 で 89.7%と 必 ず 式 (1) の b は 閾 値 で あ り 、サ ポ ー ト ベ ク ト ル x+( λi ≠ 0 と し も 高 い 精 度 は 出 て い な い 。[3]の 手 法 で は 英 字 、数 字 、 な る xi ) と x+ に 対 応 す る yi の 値 y+ か ら ギ リ シ ア 文 字 、数 式 記 号( 全 122 文 字 )に 対 し て 96.6% の精度であるが、テストに用いているサンプルは 3 人 分のみである。一般に、人数を増やした場合、認識率 n b = y+ − ∑ yi λi K ( xi , x+ ) i =1 (4) のように自動的に決定することができる。あるいは、 の 文 字 を 出 力 す る 。こ れ を 第 一 候 補 、第 二 候 補 と テストサンプルに対して認識を行い認識率から試行錯 す る 。た だ し 、デ ー タ ベ ー ス に は 学 習 サ ン プ ル を 誤的に決定することも可能である。 式 (1)(3) の K (u , v) は カ ー ネ ル 関 数 と 呼 ば れ る 関 数 で ② と 同 じ 均 等 化 を 行 い 、式 (7) で 計 算 さ れ る 角 度 情 報に変換し、あらかじめ登録しておく。 あ る 。 入 力 u,v が ベ ク ト ル で あ る と き 、 カ ー ネ ル 関 数 ④ としては一般にガウシアンカーネル u −v2 K (u , v) = exp − δ2 デ ー タ ベ ー ス 中 の ③ の 第 一 候 補 、第 二 候 補 の 2 種 類の文字と入力をテンプレートマッチングで比 (5) 較 す る 。テ ン プ レ ー ト マ ッ チ ン グ に よ る 類 似 度 が 最も高かったサンプルに対応する文字を④の結 が よ く 用 い ら れ る 。た だ し 、 u − v は u か ら v ま で の ユ 果とする。ただし、第一候補と第二候補の間で DTW の 距 離 が 大 き く 離 れ て い る 場 合 ( 実 験 3 で ークリッド距離であり、δは拡散の大きさを表す定数 である。またδは使用者が適宜決めるパラメータであ は 100 以 上 と し た )第 一 候 補 を そ の ま ま 認 識 結 果 る 。 u,v が ベ ク ト ル で は な く 時 系 列 情 報 の 場 合 、 と す る 。入 力 と 比 較 す る 画 像 は あ ら か じ め 2 値 画 Gaussian Dynamic Time Warping Kernel ( GDTWK ) と 呼 ば れ る カ ー ネ ル 関 数 が 提 案 さ れ て い る [8] 。 こ こ で DDTW (u , v) を DTW (Dynamic Time Warping) に よ り 求 め 像化してデータベースに登録しておく。 ⑤ ④ の 認 識 結 果 が SVM2D 、 SVMGDTW を 行 う 文 字 としてリストに登録されていれば、それぞれの た 距 離 と す る 。DTW と は 時 系 列 情 報 を 伸 縮 を 許 し て 対 SVM で 認 識 を 行 い 、そ の 結 果 を 最 終 結 果 と す る 。 応付け、動的計画法により最短の対応を計算する距離 登録されていなければ④の結果を最終結果とす の 測 定 方 法 で あ る 。 GDTWK で は る 。 SVM2D 、 SVMGDTW に よ り 判 別 を 行 う 文 字 (u , v ) D K (u , v ) = exp − DTW 2 δ (6) は 事 前 に 実 験 を 行 い 、効 果 が 高 か っ た 文 字 を あ ら かじめ設計者がリストに登録しておく。 によりカーネル関数を定義する。このカーネル関数を 以上のように①~④までの既存の認識手法の結果に、 用 い た SVM で あ る SVMGDTW は 時 系 列 の 判 別 、特 に 類 似 文 字 が あ る 場 合 の み ⑤ で SVM を 使 用 す る こ と で 、 オンライン文字認識に有効であることが分かっている。 類 似 文 字 を 高 い 精 度 で 認 識 し つ つ 、使 用 す る SVM を 4. 提 案 手 法 最小限に抑え、効率の良い認識を行うことができる。 本 節 で は 提 案 手 法 で あ る SVM を 用 い た 類 似 数 式 文 :データ形式 の変換 字の認識手法について述べる。提案手法では、既存の ② 点の均等化 文字認識手法を用た認識を最初に行い、次に相互に誤 認 識 が 起 こ り や す い 文 字 の ペ ア に つ い て の み SVM を 用 い て 詳 細 な 判 別 を 行 う 。既 存 の 文 字 認 識 手 法 と し て 、 :認識結果 ③DTWを用いて データベースと照合 マ ッ チ ン グ を 組 み 合 わ せ た 認 識 法 を 用 い る 。SVM を 用 第一候補 い た 判 別 に は 、画 像 を 入 力 と す る SVM(SVM2D と 呼 ぶ ) 説明する。 4.1 文 字 認 識 手 法 の 全 体 画像情報の データベース でデータベースと照合 分 け る 。 以 下 4.1 で は 文 字 認 識 手 法 の 全 体 に つ い て 説 角度の時系列情 報のデータベース 第二候補 ④ テンプレートマッチング と 角 度 の 時 系 列 情 報 を 入 力 と す る SVMGDTW を 使 い 4.4 で は SVM を 用 い た 類 似 文 字 の 判 別 に つ い て 詳 し く :データの流れ 角度の時系列 情報に変換 2 値画像化 本 稿 で は DTW(Dynamic Time Warping) と テ ン プ レ ー ト 明 し 、4.2 で は DTW 、4.3 で は テ ン プ レ ー ト マ ッ チ ン グ 、 :認識操作 ①入力(ペンの位置座標列) (第一候補、第二候補のみ) ⑤ 結果が SVM、SVMGDTWを行う文字として Yes, 登録されているか Yes, SVM SVM GDTW No 2値画像を 角度の時系列情報を SVMGDTWで判別 SVMで判別 ここでは文字認識手法の全体の流れについて図 2 を 用いて示す。以下、①~⑤までの順序で認識の流れに 最終結果 図 2 ついて説明する。 ① ② ③ 提案手法の流れ 入力としてペンの位置座標を時系列でサンプリ 4.2 ングしたものを用いる DTW は 二 つ の 時 系 列 の 間 の 距 離( 正 確 に は 距 離 の 公 DTW 入 力 は 点 の 数 が 位 置 や 人 に よ っ て 偏 り が あ る 。こ 理を満たさないため距離ではない)を動的計画法によ の た め 点 の 位 置 を 、点 の 間 の ユ ー ク リ ッ ド 距 離 が 均等になるように並べなおす。 っ て 計 算 す る 手 法 で あ る 。 本 稿 で は DTW へ の 時 系 列 の 入 力 と し て ペ ン が ( x1 , y1 ) か ら ( x2 , y2 ) に 移 動 し た と き DTW を 用 い て 認 識 を 行 う 。DTW を 用 い て 入 力 を の角度 デ ー タ ベ ー ス と 照 合 し 、最 も 類 似 性 が 高 い 2 種 類 θ = arctan(( y2 − y1 ) /( x2 − x1 )) (7) をサンプリングしたものを用いる。ただし角度と角度 か は 実 験 1 で 確 認 す る 。ま た 閾 値 b に つ い て は (4) 式 を の 距 離( DTW に 使 用 す る ロ ー カ ル な 距 離 )は 、比 較 す る 二 つ の 角 度 を θ1,θ 2 と す る と 、 θ1 と θ 2 の 間 の 角 の 内 、 動的に変更する。例えば、γを余り使用しないユーザ 用いて決定するだけでなく、ユーザや文脈に合わせて 角 度 の 小 さ い ほ う の 角 度 と す る 。DTW に よ る 文 字 認 識 の場合であれば閾値を調整することで、r の方に偏っ で は 、 学 習 サ ン プ ル と 入 力 を DTW で 比 較 し 、 距 離 の た認識を行うことができる。このような閾値の変更に 値が最小となるサンプルに対応する文字を認識結果と よる認識率の変化については実験2で確認する。 する。 5. 実 験 4.3 テ ン プ レ ー ト マ ッ チ ン グ 本 節 で は 、 提 案 手 法 で あ る SVM を 用 い た 数 式 文 字 本稿で用いるテンプレートマッチングは、オンライ 認識に関して実験を行い、その有効性を検証する。 ン情報を2値画像に変換し、2 値画像同士の類似度を 実 験 1 で は 、 誤 認 識 が 起 こ り や す い 文 字 の ペ ア 10 計 算 す る 手 法 で あ る 。2 値 画 像 の 作 成 方 法 を 以 下 の 図 3 組 に つ い て DTW 、テ ン プ レ ー ト マ ッ チ ン グ 、SVM2D 、 用いて説明する。まず入力ストロークの外接長方形を SVMGDTW の 4 つ の 認 識 機 で 個 々 に 認 識 を 行 い 、認 識 求 め 、 外 接 長 方 形 を m ×n ピ ク セ ル に 分 割 す る 。 次 に 率 を 測 定 し 比 較 す る 。 実 験 1 に よ り SVM2D お よ び 全てのピクセルについて、線が通っているピクセルの SVMGDTW が 類 似 文 字 の 判 別 に ど の 程 度 有 効 で あ る 値を1に、そうでないピクセルの値を 0 にする。 かを検証する。 実 験 2 で は 、SVM の 閾 値 b を -1~1 ま で 0.1 刻 み で 変 更した場合、判別する二つの文字のそれぞれの認識率 ①入力 ②外接長方形 を計算 ③外接長方形をm×n ピクセルに分割する 図 3 ④線が通っているピクセルを1 それ以外を0とする 2 値画像の作成法 がどのように変わるのかを調査する。実験2により、 4.3 で 述 べ た 閾 値 の 動 的 な 変 更 が 認 識 に 効 果 的 で あ る かを検証する。 テンプレートマッチングでは、図 3 の方法で作成し 実 験 3 で は 、4.5 で 提 案 し た 認 識 手 法 に つ い て 、SVM た 2 値画像 u , v の左から i 番目、上から j 番目のピク を使用する場合と使用しない場合両方の認識率を測定 セ ル の 値 を そ れ ぞ れ uij , vij と す る と し比較する。実験 3 により、提案手法による類似文字 DTM (u , v) = ∑ (uij − vij ) 2 判別が、文字認識全体にどの程度効果があるのかを検 (8) ij 証 す る 。た だ し 、実 験 で は [5] で 採 取 し た サ ン プ ル 各 文 字 60 個 ( 60 人 分 ) を 用 い た 。 サ ン プ ル は ペ ン テ ル の により二つの画像の距離を求める。テンプレートマッ airpen を 用 い て 、毎 秒 20 回 の 間 隔 で サ ン プ リ ン グ さ れ チングによる認識では入力と距離の値が最小の学習サ たものである。 ンプルに対応する文字を認識結果とする。 4.4 SVM を 用 い た 類 似 文 字 判 別 提 案 手 法 提 案 手 法 で は 2 種 類 の SVM 、 す な わ ち SVM2D と SVMGDTW を 対 象 と な る 文 字 に よ っ て 使 い 分 け る 。 SVM2D は 4.3 の 2 値 画 像 を 入 力 と し て 用 い る 。こ の た め 、 カ ー ネ ル 関 数 を 以 下 の 式 (9) で 定 義 す る 。 D (u , v) K (u , v) = exp − TM 2 δ (9) 学 習 は 学 習 サ ン プ ル か ら (2)(3) 式 に 基 づ い て 行 う 。 以 降 、 実 験 1 , 2 , 3 に つ い て 、 そ れ ぞ れ 5.1 、 5.2 、 5.3 で 述 べ る 。 5.1 実 験 1 本 実 験 で は 類 似 文 字 の ペ ア 10 組 、 (a,q)(g,y)(h,n)(i,j) (p,D)( γ ,r)( κ ,K)( ν ,v)( τ ,t)( ω ,w) を 認 識 し 認 識 率 を 測 定 し た 。認 識 手 法 と し て DTW 、テ ン プ レ ー ト マ ッ チ ン グ 、 SVM2D 、 SVMGDTW の 4 つ を 用 い た 。 判 別 を 行 う 文 字 の ペ ア は 事 前 に DTW と テ ン プ レ ー ト マ ッ チ ン グによる認識を行って、誤認識が多いものを選んだ。 SVM2D は 画 像 か ら 判 別 を 行 う た め 、 線 の 長 さ な ど の な お (6)(9) 式 の δ は SVM2D で は δ =2,3,4,5 、SVMGDTW 2次元的な差異に基づいた判別が可能である。 で は δ =8,9,10,11 と し て そ れ ぞ れ の 場 合 に つ い て 実 験 SVMGDTW は (7) 式 の 角 度 の 時 系 列 を 入 力 に 用 い る 。 を 行 っ た 。2 値 画 像 の サ イ ズ は 縦 横 10 × 10 と し た 。認 す な わ ち 、4.3 で 説 明 し た DTW を 行 い (6) 式 の カ ー ネ ル 識率はクロスバリデーション法を用いて測定した。こ 関 数 を 計 算 す る 。SVMGDTW は 筆 跡 の 時 系 列 を 入 力 と こ で は 、 60 個 の サ ン プ ル を 20 個 ず つ の 3 組 に わ け 、 するため、書き順や線の曲がり具合などの時系列的な その内 2 組を学習用に、残り 1 組をテスト用に使用し 差異に基づいた判別が可能である。 た。これを学習用とテスト用の組み合わせを変えて全 提案手法では誤認識が起こりやすい文字のペアに 3 回 行 い 、認 識 率 を 測 定 し た 。表 1 に 認 識 結 果 を 示 す 。 た い し て SVM2D と SVMGDTW を 、実 際 に 適 用 し て み ただし表 1 では、スペースの関係からテンプレートマ て 、 認 識 精 度 が 高 い 方 の SVM を 使 用 す る 。 各 文 字 の ッ チ ン グ を TM と 表 記 し た 。 ペ ア に 対 し て 、 SVM2D と SVMGDTW の ど ち ら が 有 効 表 1 か ら SVM を 用 い る こ と に よ り 、 (h,n) を 除 く 全 て の組み合わせに対して認識率が上昇したことが分かる。 ( γ ,r)( τ ,t)( ω ,w) を 例 に と り 実 験 を 行 っ た 。 認 識 は 特 に (y,g) は SVMGDTW で 6.6% 、( γ ,r) は SVMGDTW で SVMGDTW を 用 い て 行 い 、 閾 値 b を -1 か ら 1 ま で 0.1 6.7% 、 ( ω ,w) は SVM2D で 5.9% 、 ( τ ,t) は SVMGDTW 刻みで変化させ、実験1と同様のクロスバリデーショ で 5.0% の 認 識 率 の 向 上 が 見 ら れ た 。 そ の 他 (i,j) で は ンで認識率を測定した。表2に、それぞれの文字のペ SVMGDTW で 100 % の 識 別 が 可 能 に な っ た 。 こ れ ら の アを閾値を変えて認識したときの認識率を示す。また 文 字 に 対 し て SVM に よ る 認 識 は 有 用 で あ る と い え る 。 図 5 に ( γ ,r) の 認 識 率 を グ ラ フ に し た も の を 示 す 。た だ し て 認 識 で き た 割 合 を 示 す 。図 5 の 横 軸 は 閾 値 の 値 を 、 11 2 3 4 5 90.0 90.0 89.2 89.2 96.7 98.3 99.2 99.2 aq 90.8 pD 63.3 92.5 71.7 72.5 73.3 76.7 96.7 96.7 96.7 96.7 nh 69.2 95.8 71.7 71.7 73.3 75.8 93.0 95.0 95.8 95.8 ij 99.2 90.0 100 100 99.2 99.2 90.0 90.8 92.5 93.3 yg 91.7 74.2 96.7 98.3 97.5 97.5 80.8 83.3 85.0 81.7 γr 80.0 75.8 85.8 86.7 85.0 85.0 81.7 82.5 81.7 83.3 ωw 76.3 79.7 82.2 83.1 83.1 83.9 81.4 83.9 83.1 85.6 τt 90.8 88.2 95.8 95.0 94.1 94.1 91.6 93.3 92.4 91.6 κK 58.3 52.5 58.3 57.5 58.3 58.3 54.2 59.2 58.3 55.8 νv 61.7 55.8 58.3 59.1 58.3 61.6 63.3 62.5 60.0 60.8 た だ し 、 ( κ ,K)( ν ,v) に 関 し て は SVM を 用 い て も 若 干の上昇は得られたものの、認識率は低いままであっ た。そこで、認識に失敗したサンプルを図示してみた と こ ろ 、サ ン プ ル の 筆 者 が κ ,K と ν ,v を う ま く 書 き 分 け ら れ て い な い こ と が 分 か っ た 。図 3 、図 4 に κ と K 、 νとvのサンプルの内、認識に失敗した最初の5つを 例として示す。図 3 から、κのサンプルがKと見分け がつかず、逆にKのサンプルのほうが曲線的でκらし 縦軸は認識率を表し、rγ識別率はrとγを正しく識 別できた割合を示す。 表2 閾値 -0.5 -0.3 -0.1 0 0.1 0.3 0.5 y認識率 15 18 43.3 98.3 100 100 100 認識対象 y,g γ,r τ,t ω,w 閾 値 を 変 化 さ せ た 場 合 の 認 識 率 の 変 化 [%] g認識率 100 100 100 96.7 35 0 0 γ認識率 0 5 53.3 90 98.3 100 100 r認識率 100 98.3 93.3 83.3 63.3 30 10 τ認識率 39 49 89.8 91.7 98.3 98.3 100 t認識率 100 100 96.7 96.6 73.3 45.1 20 ω認識率 100 98.3 90 75 45 25 1.6 w認識率 3 44.5 82.8 93.1 98.3 100 100 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% γ認識率 r認識率 γr識別率 く見えることもあることが分かる。また図 4 から、ν とvはほとんど同じで見分けがつかず、書き分けがで 図 5 0.8 0.9 1.0 10 0.4 0.5 0.6 0.7 SVM2D 9 0.3 97.5 SVMGDTW 8 -0.2 -0.1 0.0 0.1 0.2 TM -0.7 -0.6 -0.5 -0.4 -0.3 DTW δの値 認識対象 し 、表 2 、図 5 の X 認 識 率 は 文 字 X の サ ン プ ル を X と 類 似 文 字 の 認 識 結 果 [%] -1.0 -0.9 -0.8 表1 γと r の識別の認識率と閾値の関係 きていないことが分かる。よって現状では、これらの 図 5 か ら 、( γ ,r) で は 最 大 の 認 識 率 を 示 す 閾 値 は b=0 文字の認識は難しく、正確な認識を行うためには、ギ で あ る こ と が 分 か る 。 ま た 、 b=-0.2 と す れ ば 、 r を ほ リシア文字と英字の書き分けができる人から改めてサ とんど認識しつつ、γをある程度認識することができ ンプルを採取する必要がある。 る 。さ ら に b=-1 と す れ ば 、書 か れ た 文 字 に 関 わ ら ず r と認識することになる。これを利用すると、ユーザの κ 文字の使用頻度に合わせて閾値を調整することで、ユ K 使 用 し な い ユ ー ザ に 関 し て は b=-1 と し 、半 々 で 使 用 す ーザに合わせた認識が可能となる。例えば、γを全く る ユ ー ザ に 関 し て は b=0 と す れ ば よ い 。加 え て 文 脈 に 合わせてシステムが動的に閾値を変更することにより、 図 3 κ(上)とK(下)の例 文脈に即した判別が可能となる。例えば、同じ式の中 でγが使用されていたら、次に書かれた文字もrより ν γである可能性が高い。この場合 b の値を少し増加さ せ る こ と に よ り 、γ と 認 識 さ れ 易 く す る こ と が で き る 。 v これらのことは表 2 から、他の文字の判別においても 同様であることが分かる。 図 4 ν(上)とv(下)の例 実験2の結果から、閾値を動的に変更することでユ 5.2 実 験 2 ーザや文脈に合わせた認識が効果的にできることが分 本 実 験 で は SVM の 閾 値 b を 変 化 さ せ て 、 判 別 す る かる。 文字それぞれの認識率がどのように変化するかを測定 し た 。 こ こ で は 実 験 1 で 精 度 が 大 き く 向 上 し た 、 (y,g) 5.3 実 験 3 6. 終 わ り に 本 実 験 で は 、 4.1 の 認 識 手 法 に お い て 、 SVM に よ る 本 稿 で は 2 種 類 の SVM ( 画 像 を 入 力 と し て 用 い る 類似文字認識の有無で、全体としてどの程度認識率が SVM2D と ペ ン の 位 置 の 時 系 列 を 入 力 と す る 変化するかを測定した。認識対象とした文字を表 3 に SVMGDTW ) を 使 い 分 け 、 類 似 の 文 字 を 精 度 よ く 認 識 示 す 。 認 識 対 象 の 文 字 は 英 字 (46 字 ) 、 数 字 (10 字 ) 、 ギ する手法を提案した。また提案手法に対して、筆者ら リ シ ア 文 字 (23 字 ) 、数 式 記 号 (27 字 ) の 全 106 字 で あ る 。 が [5] で 採 取 し た サ ン プ ル を 対 象 と し て 検 証 を 行 っ た 。 た だ し 、英 字 の O,o は 0 と 、P,V,S,Z は そ れ ぞ れ の 小 文 実 験 1 で は ω と w を SVM2D を 用 い て 85.6% で 認 識 字 p,v,s,z と 見 分 け が つ か な い た め 使 用 し な か っ た 。ま し 、γ と r を SVMGDTW を 用 い て 86.7% で 認 識 す る な た 1 と 同 じ 書 き 方 の l 、 9 と 同 じ 書 き 方 の q 、×と 同 じ ど 、SVM が 類 似 文 字 の 判 別 に 有 用 で あ る こ と を 示 し た 。 書き方のxは使用しなかった。これらの文字は文字認 実 験 2 で は SVM の 閾 値 を 変 更 す る こ と に よ り 、 ユ 識での判別が難しいため、一般に書き方に制限を設け ーザの文字の使用頻度や文脈に合わせた認識が可能で たり、他の文字との大きさの差で判断を行ったりとい あることを確認した。 った方法で対処が行われる。ギリシア文字、数式記号 実 験 3 で は DTW と テ ン プ レ ー ト マ ッ チ ン グ か ら な は 使 用 頻 度 を 基 準 に そ れ ぞ れ 23 文 字 、 27 文 字 を 選 び る認識手法に、提案手法を適用した結果、適用前に比 認 識 対 象 と し た 。 サ ン プ ル は 各 文 字 60 個 ( 60 人 分 ) べ て 誤 認 識 の 15.4% を 改 善 し 、 91.1 % の 認 識 率 で 数 式 を 用 い 、 そ の 内 40 個 ( 40 人 分 ) を 学 習 サ ン プ ル 、 20 文 字 106 文 字 を 認 識 可 能 で あ る こ と を 確 認 し た 。 個( 20 人 分 )を テ ス ト サ ン プ ル と し た 。認 識 す る 文 字 ただし、κとK、νと v などはサンプルを採取する の 中 で SVM2D, SVMGDTW を 使 用 し て 認 識 を 行 う ペ 段階で文字の書き分けができていないことも明らかに ア を 表 4 に 示 す 。 SVM を 使 用 す る 文 字 は DTW と テ ン なった。これに対しては、ギリシア文字を書き慣れた プレートマッチングによる認識で相互に誤認識が起こ 人からサンプルを採取しなおしたり、書き方に自然な り や す く 、 か つ SVM を 使 用 す る こ と で 認 識 精 度 が 向 限 定 を 付 た り な ど し て 対 処 を 行 い た い 。ま た p と P 、s 上 す る も の を 選 ん だ 。SVM の パ ラ メ ー タ は 実 験 1 ,2 と S など本質的に書き方の変わらない文字については と同様のクロスバリデーションを行って、最も認識率 認識を保留している。これらの文字については、文字 が 高 い と き の 値 と し た 。 SVM2D と SVMGDTW の ど ち 認識の段階での判別は難しいため、数式を入力する段 らを使用するかも同様に認識率が高いほうとした。ま 階で、ユーザがうまく書き分けることが出来るような た 2 値 画 像 の サ イ ズ は 縦 横 8×7 と し た 。 本実験の結果を表 5 示す。表 5 から提案手法を使用 しない場合と比べて、提案手法を使用した場合、認識 率 が 1.46 % 改 善 し た こ と が 分 か る 。こ れ は 誤 認 識 の 内 、 15.4 % が 改 善 さ れ た こ と を 意 味 す る 。 本 実 験 か ら 一 部 の誤認識が起こりやすいペアに対して、提案手法を適 用することで、全体的な認識率の向上が可能であるこ とが分かる。 表 3 実験 3 で用いた文字の種類 英 字 46 字 数 字 10 字 ギ リ シ ア 文 字 23 字 数 式 記 号 27 字 表 4 SVM2D を 使 用したペア SVMGDTW を使用した ペア 表 5 abcdefghijklmnpqrstuvwxyz ABDEFGHIJKLMNQRTUWXY 1234567890 αβγδηζθκλμνξπ ρτφψωΓΔΠΣΩ +- ±∓ ÷×< > ≦ ≧ = ≠ ≒ ∫ ∲ ∂ ∇ (){}[] √ ∞ % → SVM2D,SVMGTW を 使 用 し た 文 字 の ペ ア (a,9)(j,J)(p,D), (I, ] )( δ ,8)( η ,n) ( ω ,w) (y,g) ( γ ,r) ( κ ,K)( τ ,t) インターフェースが必要となる。今後はこのようなユ ーザにとってもシステムにとっても都合の良い数式認 識インターフェースを提案していきたい。 文 献 [1] U. Garain and B. B. Chaudhuri, ”Recognition of Online Handwritten Mathematical Expression,” IEEE trans. on syst., man, and cybern. Part B, Vol.34, NO.6, pp.23662376, Dec.2004. [2] 青 島 史 郎 , 鈴 木 隆 広 , 森 健 策 , 末 長 康 仁 ,” 実 時 間 手 書 き ス ト ロ ー ク 解 析 に よ る 数 式 入 力 シ ス テ ム ,” 信 学 論 (D-II), Vol.J83, No.5, pp.1232-1245, May.2000. [3] 田 畑 耕 一 , 福 田 亮 治 , 鈴 木 昌 和 , “ 2 次 元 ワ ー プ を 併 用 し た オ ン ラ イ ン 英 数 字 ・ 数 学 記 号 認 識 ,” 信 学 技 報 PRMU, Vol.100, No.701, Mar.2001 [4] K. Chan and D. Yeung, ”Mathematical expression recognition: a survey,” IJDAR, Vol.3, No.1, pp.3-15, Aug.2000 [5] 糟 谷 勇 児 , 山 名 早 人 , ” デ ジ タ ル ペ ン を 用 い た 数 式 サ ン プ ル 採 取 シ ス テ ム と 採 取 文 字 に 対 す る 認 識 実 験 ,” 信 学 技 報 PRMU, Vol.105, No.374, pp.7-12, Oct.2005 [6] 数 式 サ ン プ ル デ ー タ ベ ー ス http://www.yama.info.waseda.ac.jp/~kasuya-u/ [7] N. Cristianini and J. Shawe-Ta ylor, サ ポ ー ト ベ ク タ ー マ シ ン 入 門 , 大 北 剛 ( 訳 ),( 社 ) 共 立 出 版 , 東 京 ,2005 提 案 手 法 使 用 前 後 で の 認 識 率 と 誤 認 識 率 [%] 提案手法使用前 提案手法使用後 認識率 89.6 91.1 誤認識率 10.4 8.9 [8] C. Bahlmann,B. Haasdonk and H. Burkhardt,”On-line Handwriting Recognition with Support Vector Machines-A Kernel Approach,” IEEE proc. of the IWFHR’02, Aug.2002
© Copyright 2024 Paperzz