人物顔表情の認識・再構成と ¿ 次元仮想空間 共用形通信への適用に関する研究 年 月 佐 藤 一 人物顔表情の認識・再構成と ¿ 次元仮想空間 共用形通信への適用に関する研究 年 月 早稲田大学大学院 国際情報通信研究科 国際情報通信学専攻 サイバースペース研究 佐 藤 一 目次 第 章 序論 研究の背景 研究の目的 人物顔の重要性 モデルベース符号化 研究課題 本論文の構成 第 章 諸定義および 次元顔モデルの構築・表示法 はじめに 座標系とカメラモデル 座標系 カメラモデル オブジェクト表示と座標変換 次元人物顔モデルの構築・表示方式 正面・側面顔画像を用いた構築 フィッティング処理 三角形ポリゴン テクスチャマッピング ポリゴンの表裏判定 隠面処理 まとめ 第章 テンプレート補間照合による 次元人物顔方向の計測法 はじめに 提案手法 離散テンプレート系列の作成 濃淡情報 正規化処理 テンプレート系列 最類似テンプレートの選択 隣接テンプレート間の補間計算 第章 第章 変形パラメータ推定法 補間計算法 次元的な計測への拡張 基礎実験 条件 無表情顔画像を用いた計測 結果・考察 有表情顔画像を用いた計測 結果・考察 まとめ テクスチャの張り替えによる人物顔画像の再構築 はじめに 提案手法 人物顔領域の特定と抽出 連続フレーム間差分 輝度プロジェクションを用いた領域特定 次元人物顔角度の計測 擬似正面画像の生成 テクスチャの張り替え 基礎実験 実験データ 結果・考察 まとめ 顔面筋動作に基づく人物顔表情変化の再構築 はじめに 提案手法 次元顔モデルの構築 顔形状の変形 擬似正面画像の作成 モデル形状の変形 スプリング伸縮に伴うモデル頂点の移動 最適位置の決定 テクスチャの張り替え 実験 実験データ 評価方法 結果・考察 システム化の検討 概要 システム構成 通信の流れ 実装 圧縮品質に関する評価実験 結果・考察 まとめ 第 章 結論 謝辞 参考文献 研究業績 図一覧 表一覧 第 章 序論 研究の背景 「通信」という概念は,離れた場所にいる人物同士が距離を克服し,より効率良く 情報伝達を実現する要求から誕生した 古代より狼煙や旗を用いた通信が行なわれてき たが, 世紀に入ると,モールスによって電信が発明され,電磁石を用いることによ り通信網を通じて信号を伝送することが可能となった.さらに,ベルによって電話が 発明され,音声情報を直接送受信する方法が確立されたことにより,通信の新しい時 代が幕を開けたといえる.以来,電話網を中心に,地球全体を覆う通信ネットワーク が整備され,遠隔地にいる者同士の情報伝達を簡便に行うことができるようになった. 近年では,より日常的な人対人の対話に近い,自然な通信の実現に対する要求が高 まり,テレビ電話やテレコンファレンスシステムなど,音声情報に画像情報を付加し た通信システムの開発が進められてきた .これらのシステムによって解決した部分 もあるが,カメラ入力動画像がそのまま伝送されているため,相手との間に距離感を 感じてしまったり,充分な一体感が得られないなどの問題点があった. そのような中,通信技術とヴァーチャル・リアリティ技術を融合することにより,遠 隔地にいる人物同士があたかも一堂に会しているような効果が得られるような「場」を 生成し,その中に参加者を没入させることにより,実社会における人間対人間のコミュ ニケーションに限りなく近づけるという考え方が誕生した . この考え方に基づき,臨場感通信会議システム に代表される 次元仮想空間共用 形通信システムの構築が進められてきた . このようなシステムでは,コンピュータグラフィックスやコンピュータビジョン技術 などを用いることにより,計算機上に 次元仮想空間が構築され,その中に各参加者 の容姿を模した仮想的な分身(アヴァタ)が合成・表示される.入力デバイスや画像 処理・認識技術などにより,各参加者の顔表情変化や人体動作などが認識され,デー タが抽出される.抽出されたデータはインターネットなどの通信ネットワークを通じ て計算機入力され,前述の分身に反映される.また,このようなシステムでは人物や 環境が 次元再構築されるため,参加者同士の対話のみならず,協調作業なども期待 でき,遠隔授業,遠隔医療,仮想旅行など,多くの応用が考えられる .このよう なシステムを概念を図 に,具体的な実装例を図 にそれぞれ示す. 図 次元仮想空間共用形通信システムの概念 図 次元仮想空間共用形通信システムの実装例 研究の目的 人物顔の重要性 章にて述べたような 次元仮想空間共用形通信システムにおいて,中心となるの は参加者である.そのため,異なる場所にいる参加者の動作や表情変化をいかにして 次元仮想空間内に反映させるかは最重要課題といえる . 具体的な研究課題としては,頭部,顔,手,指,腕,足などの個別部位,あるいは全 身の移動,回転,変形などを対象としたものが挙げられるが,人物顔に対象を絞った ものが特に求められている . これは,人物顔が人対人型コミュニケーションにおいて最も馴染みやすいインタフェー スの一つであり,音声情報だけでは得られない多くの情報をごく自然に得ることがで きるからである. 例えば,目,眉,口などの人物顔構成要素の位置や大きさといった外見的な特徴の みならず,表情やジェスチャからは心の中の感情などを,顔色からは体調などを容易 に理解することができ,日常的な対話を円滑に行う上で大きな役割を果たしている. もし人物顔情報の抽出,および 次元再構成を高速かつ高精度に行うことができれ ば,前述した 次元仮想空間共用形通信システムにおいて,参加者同士のより自然な コミュニケーションが期待できる. モデルベース符号化 通信システムにおける,代表的な人物顔情報の 次元伝送・再構築手法としてモデ ルベース符号化 が挙げられる.画像符号化では,符号化対象に対する先見的 な知識を用いることにより,データ圧縮が行われることが多いが ,この方式は 人物の顔に対象を絞ったものである. この手法では,通信に先がけて 次元人物顔モデルが予め構築され,受信側に蓄え られる. 送信側では人物顔より顔表情変化などをあらわす各種パラメータが抽出された後(符 号化処理),受信側に伝送される.なお,符号化処理は正面顔画像を対象としているた め,パラメータ抽出に先がけ,頭部動作の計測や,頭部動作影響の除去処理が行われ ることが多い. 受信側では,送信側より伝送されてきたパラメータを用いて 次元顔モデルの変形 処理が行われ,顔表情が再現される(復号化処理).この 次元顔モデルは参加者の 視点に応じて回転・移動され, 次元スクリーン上に投影されることにより表示が行わ れる. 上記の流れを図 に示す. ½ 日常的な対話と同等の人対人型コミュニケーションを達成するには人物の五感全てに刺激を与える 必要がある.しかし,人間が外界から得ている情報の大部分は視覚によるものであると考えられるため, ここでは視覚的情報処理に対象を限定して考える. Input Images Measurement of Head Motion 3D Face Model Position/Direction Parameters Compensation of Head Motion Facial Feature Parameter Measurement parameters Encoding Vertices Deformation Rotate/ move Projection onto 2D screen Output Images Decoding RECEIVER SENDER 図 モデルベース符号化の概念 研究課題 モデルベース符号化は,ネットワーク上で送受信するデータをパラメータ情報に限 定しており,データ量の削減や通信の効率化が期待できる.そのため,従来の 次元 仮想空間共用形通信システムもこの方式を基本としているものが多い.しかし,この ようなシステムにおいて実社会と同等の人対人型コミュニケーションを実現するには, 以下の課題を解決する必要がある. 課題 人物顔方向変化の計測 モデルベース符号化は正面顔画像を対象としているが,対話を行っているときの人 物顔方向は実際には変化する.カメラを先に取り付けたヘルメットを装着することに より頭部を完全固定したり,磁気センサなどのデバイスを顔や頭部に装着して動作パ ラメータを読み取った後補正を行うアプローチも考えられるが,機材が顔や頭部と直 接接触するため,人物顔情報入力方式として快適とはいい難い. そのため,人物本来の動作と同等の自由度を持たせるには,画像情報に基づいたよ うなアプローチが望まれる.従来手法としては,赤外画像を用いて頭髪領域と顔領域 を区別し,その相関関係より顔方向を推定する手法 ,複数の方向画像を用いた固 有空間法による手法 ,色情報を用いた手法 ,顔部品の配置の偏りを用いた手法 ,人物顔画像からの速度ベクトル(オプティカル・フロー)の検出により見か け上の動作を算出し, 次元動きパラメータを推定する手法 ,剛体の 次元動作パ ラメータを画像の時空間勾配から直接推定する方法 などが提案されている しかし,これらのアプローチでは画像取得条件に制約をつける必要があったり,計 算処理が複雑になったりするため, 次元仮想空間共用形通信システムのようなアプリ ケーションへの適用が困難であった.そのため,より簡便な原理で高精度な人物顔角 度計測を行う手法が求められている 課題 自然な人物顔画像の再構築 復号化処理を行う際,受信した顔表情変形パラメータに基づき,無表情 次元顔モ デルの形状変形が行われる.しかし,顔表情変化パラメータを抽出するのは困難であ り,デバイスを顔上に貼る必要があったり,人物顔情報入力方式に制約をつける必要 があったりするため ,人物顔情報入力が快適であるとはいい難い. また,無表情人物顔モデルの形状を変形するだけでは表情変化に伴って発生する皺 や肌の質感変化などを性格に再構築できる訳ではない.また,目,歯,舌などのよう に,独特の質感や形状をもつオブジェクトをモデリングすることも困難であり,顔画 像生成結果のリアリティを低下させる原因となっている.頭蓋骨,皮膚,顔面筋など, 人物顔の構造を物理学的に厳密に再構築することにより,再現品質を向上させる試み もなされているが ,データ量が膨大になるため, 次元仮想空間共用形通信シ ステムのようにリアルタイム性の求められるようなアプリケーションへの適用は困難 である.また,顔面筋動作を正確に計測することは事実上不可能であり,各種パラメー タの調整を試行錯誤によって行う必要があるため煩雑である. 人物顔は人間にとって,特に馴染み深いインタフェースであるため,少しでも不自然 な顔画像が生成されると大きな違和感に繋がってしまうおそれがある.そのため,簡 便な原理により,実世界における人物顔とできる限り同じ品質の顔画像を生成する手 法が求められている. 課題 人物顔表情変化の定量的な再現 符号化・復号化処理において,何らかの幾何学的なルールに基づき,人物顔表情変 化パラメータの抽出や 次元顔モデルへの反映が行われるが,このときのルールとし て, ! が用いられることが多い .これ は顔表情変化を筋肉の機能的単位である 個の " "! の組み合わせとし て客観的に評定する方式である." は解剖学的に独立し,視覚的に識別可能な表情 動作の最小単位(例: 「眉の内側を上げる」, 「口の両端を下げる」など)であり,一定 の " の組み合わせが,喜び・怒り・悲しみなどの基本感情に対応することが知られ ている . しかし,これはあくまでも顔表情変化を定性的にあらわすためのフレームワークで あり,定量的にあらわしている訳ではない.そのため,まばたきや発話のときの口形 状変化などといった微妙な表情変化や,ある表情から異なる表情への遷移を表現する ことは困難である 日常的な人対人型の対話と同等のコミュニケーションを行うためには,より自然な 表情生成方式が必要であり,表情変化を定量的に再構築する必要がある. 上記の課題 ∼ を解決することができれば,人物顔情報が自然な形で計算機入力で き,高速かつ高精度な人物顔表情変化の認識およびリアリティの高い人物顔画像の再 構成が実現される.これにより, 次元仮想空間共用形通信システムにおいて,従来ア プローチを用いたときよりも日常的な人対人型コミュニケーションに近い,自然な対 話が期待できる. 本論文では,一般的な # およびカメラを使用し,画像処理・認識,およびコンピュー タグラフィックスなどを用いることにより,これらの課題を解決するための技術につい て述べていく 本論文の構成 第 章は序論であり,研究の背景と目的について述べた. 第 章では,本論文中でディジタル画像,および 次元コンピュータグラフィックス を扱う上で前提としている数学的な諸定義について述べる.また,第 , 章で用いる 次元人物顔モデルの基本的な形状構築原理および表示方法についてもここで述べる. 第 ,, 章では, 章で挙げた各課題を解決するための技術について具体的に述 べていく. 第 章では 章に述べた課題 に対し, 次元離散テンプレート系列を用いたテ ンプレート補間照合法により,非接触,かつ従来の画像処理に基づく手法よりも簡便 なアルゴリズムで,高速かつ高精度に人物顔角度変化を計測する手法を提案する. 第 章では, 章に述べた課題 に対し,カメラ入力画像を直接用いて 次元顔 モデル表面上のテクスチャを適切に張り替えていくことにより,モデリングおよび形 状変形に基づくアプローチでは困難であったディテールを簡便な原理で再現し,リア リティの高い人物顔画像の再構築を行う手法を提案する. 第 章では, 章に述べた課題 に対し,人物顔面筋動作に基づいた表情認識方 式 を応用することにより,カメラ入力画像中の人物顔構成要素(目,眉,唇など) の変化を手がかりに, 次元顔形状モデルを顔面筋動作に基づいて変形できるように し,従来の定性的な表情記述フレームワークでは実現困難であった人物顔表情変化の 定量的な再構築を実現する. また, 章に述べるテクスチャ張り替え法の原理を導入することにより, 次元無表 情顔モデルの形状変形のみでは再現困難なディテールを再構築し,さらなる人物顔表 情の再現品質向上を図る. 最後に,上記の手法を 台のネットワーク接続された計算機の間で人物顔データ伝 送および再構築を実現できるように拡張し,システム化に関する検討を行う. 上記,第 ,, 章に述べる技術の関連を図 に示す. 第 章はまとめであり,本論文の総括を行う. Chapter 3 Face Direction Measurement Using Template Interpolated Matching Extension 3D Facial Feature Reconstruction using Texture Remapping 3D Facial Expression Reconstruction using Facial Muscle Model Improvement of Reconstruction Quality Chapter 4 3D Facial Feature Reconstruction using Texture Remapping and Facial Muscle Model Application Transmission and Reconstruction of 3D Face Images using Networkconnected Computers Chapter 5 図 第 ,, 章の関連 第章 諸定義および 次元顔モデルの 構築・表示法 はじめに 本論文ではディジタル画像,および 次元コンピュータグラフィックスを扱っている が,これらを用いる上で前提としている諸定義を明らかにしておく必要がある. 本章では,本論文中で使用している座標系,カメラモデル, 次元オブジェクト表示 方法の数学的定義について述べる. また,, 章にて述べる手法で使用する 次元顔モデルの基本的な形状構築原理お よび表示方法は共通しているため,ここで述べておく. 座標系とカメラモデル 座標系 特にことわりのない限り,水平方向,垂直方向,奥行き方向に 軸, 軸, 軸を それぞれとり,左上隅に原点があると仮定する. カメラモデル 本論文中で使用するカメラモデルは,図 のように定義する.これは光学的な歪み や収差などは考慮しない,理想的なピンホールカメラの数学的なモデルであり,レン ズの中心が視点 に対応し,レンズの光軸が 軸に対応する. 実際のカメラの撮像面はレンズの後方にあるため,像が反転して写るが,これはレ ンズの前方に反転した仮想的な撮像面を考えるのと等価である .これにより,透視 投影が実現される. ! は視点座標系 上の点を, ! は撮像面の座標系を表す.レンズ の光軸と画像面との交点が画像原点 となる.原点(レンズ中心)から画像面までの 距離(焦点距離)を とするとき, ! に対し, ! は式 のように対応する. $ ! (X, Y, Z) (x, y) y O o f X Z x screen Y 図 カメラモデル オブジェクト表示と座標変換 コンピュータビジョンの考え方では,カメラが移動して新しい視点でオブジェクト を表示することと,カメラを固定させて物体を逆に移動させることは等価である.そ のため,カメラは座標上で固定させ,オブジェクトの移動のみを考える. 視点移動後の座標系を ,視点移動前の座標系を とし,それぞ れ視点座標系,オブジェクト座標系と定義する.ここで,オブジェクト座標系の原点 の位置を視点座標系で !,オブジェクト座標系の視点座標系に対する方位角 を ,仰角を としたときの両者の座標系の関係を図 に示す.ここで,方位角は 軸まわりの回転角,仰角は 軸まわりの回転角である. 点 が で定義され、その 次元座標が ! で表されているとす る.点 が 系で ! とあらわされるとき,両者の関係は式 であら わされる. ¼ ¼ ¼ ¼ ¼ ¼ ¼ $ ! ! ! なお, !, !, はそれぞれ式 ,式 ,式 であらわされる. ! $ ! ! ! ! ! ! $ ! $ ! ! ! ! ! 式 ∼ を式 に代入することにより,平面上の座標 ! が得られる. Y Z O (T x , T y , T z ) Y Z φ λ O Z X 図 座標変換 X 次元人物顔モデルの構築・表示方式 正面・側面顔画像を用いた構築 人物の顔表面を細胞レベルまで細かく分析し,各細胞を計算機に 次元位置情報と して入力できれば,現実世界と全く同じ現象を再現することが可能となるが,膨大な データ量や計算時間が必要になる.そのため,物体の大局的な形状を保持しつつ,簡 略化するという考え方に立つ. 本論文では,正面および側面から取得された 枚の顔画像を用いることにより,特 殊な機材を用いず,なるべく少ないデータで基本的な顔形状を構築するアプローチを 採る . 人物の正面顔画像,および側面顔画像をカメラで撮影し,正面と側面の画像の中心, および頭部の高さが同じになるように調整し,直交させた配置にする.このとき,正 面と側面画像の両方で位置を特定できれば,正面画像からは横・縦方向の座標を,側 面画像からは奥・横の座標を得られるため,縦・横・奥の座標が揃い, 次元的な位置 情報を得ることができる .これにより,比較的簡単な原理によって顔の 次元形状を 模した顔モデルが構築可能になる. 正面画像と右側面画像の 枚 組の画像上に基本形状モデルの特徴点を正面・側面 画像に重ねて表示し,目,眉,口といった顔部品の端点や顔の輪郭に対応する位置を 指定していく.この作業を正面,側面画像両方のすべての特徴点に対して行なうこと により,各特徴点の 次元座標を決定する. フィッティング処理 章に述べたアプローチをそのまま用いた場合,形状モデル上のすべての点につ いて正面および側面画像上で対応付けを行う必要がある.形状モデルの精度を向上さ せるにはポリゴン数を増やす必要があり,労力を要する. 人間の顔形状は個人差があるものの,おおよその形は類似していると考えられるた め,予め一般的な頭部モデルを構築しておき,このモデルを各個人に合わせてフィッ ティングさせるという考え方に立つ . 形状モデル頂点のうち,目尻や鼻の先など,比較的対応をとりやすい部位に配置さ れたものをアンカーポイント,それ以外のものを非アンカーポイントと定義する.正 面と側面の 枚の顔画像から少数のアンカーポイント位置を指定し,顔アンカーポイ ントの位置情報をもとに,非アンカーポイントの最適位置を算出する. ½ 正面および側面の縦方向の座標は厳密には一致しないため,実際にはこの つの座標値の平均を計 算して用いるものとする. ¾ 先に述べたように,カメラ取得される正面・側面顔画像は実際には透視投影による.しかし,一般 にオブジェクトの奥行きがカメラ・オブジェクト間の距離に比べて充分に小さい場合,直交投影で近似 可能であることが知られている .本論文中にて述べる実験を行った環境において人物顔領域(耳お ½ 程度であり, 次元座標位置取得 よび後頭部領域を除く)の奥行きはカメラ・オブジェクト間距離の ½¼ 処理の簡略化にも繋がるため,直交投影を仮定する. 形状モデル上に指定された 個のアンカーポイント $ ! の移動がある 関数で重み付けされて他の頂点に影響を及ぼし,ある頂点の移動量が全頂点の重み付 けられた移動量の和となると仮定する. このとき,任意のアンカーポイント の移動量 ! は式 であらわされる. ! $ % ! ! ここで は補間係数, は &' 関数をそれぞれ示している. ! の関数としては 様々なものが提案されているが, ! $ ! を用いるのが一般的である.但し, ! が充分小さくなるように定数 を定める必 要がある. 変形前の頂点を $ ! とするとき,変形前後の特徴点の距離 は ! $ ! であらわされる.式 ,式 より補間係数 は式 を解くことにより求められる. $ ! $ % ! ! , , はいずれも 次元ベクトルであるため,行列を用いることにより,式 は式 のように書き直すことができる. $ よって, は式 ! ! ( ! ! ! を解くことにより求められる. $ ! ! ! ! ! 算出された の値を式 に代入することにより,モデル上の全ての非アンカーポ イントの頂点座標移動量が求められる. ¿ 経験側より, とした. $ ! ! ! 以上の概念を図 に示す. ¾ ¾ ½ ½ ¾ ½ ¿ ¿ ¿ 図 非アンカーポイント頂点の補間 三角形ポリゴン 次元オブジェクトは多角形,球,円柱など,単純な面の集合体で表されることが多 いが,この面を三角形(三角形ポリゴン)で表現する(図 参照). 指定した頂点のうち,隣接したものを繋いでいくことにより三角形ポリゴンを作り, これを面と考える.これにより,各ポリゴンを構成する各頂点の 次元座標の記述に よって物体の面の記述が可能となる. テクスチャマッピング ポリゴン表面を単純に塗り潰すだけでは,物体の質感や細かな凹凸を表現するのは 困難であるため,カメラ入力された 次元画像を使用し, 次元顔モデルを構成する各 三角形ポリゴン上にテクスチャマッピング処理を施すことにより,簡単な原理でリア リティの高い 次元顔画像を再現する. 具体的には,三角形ポリゴン各頂点を入力画像平面上へ射影し,対応付けを行った 後, 次元画像中の領域を適切に切り出して貼り付けることで,もとの物体が持つ特徴 をそのまま表現する. テクスチャ画像の水平方向,垂直方向をそれぞれ , 方向とし,左上隅を , 軸 の原点とする. Z X (X1 , Y1 , Z1 ) Y (X3 , Y3 , Z3 ) (X2 , Y2 , Z2 ) 図 三角形ポリゴン 各ポリゴンを構成する頂点に対し,式 ,式 を用いることにより,画像平面(ス クリーン)上に投影する.このときの各頂点のスクリーン上での座標を !, !, ! とする. ポリゴン領域内のテクスチャが切り出され, !, !, ! にそれぞれ対 応するテクスチャの座標 !, !, ! に,アフィン変換による写像が行わ れる(図 ). このとき,アフィン変換は式 によって行われる. $ ) ! ただし,∼ は式 ,式 によって算出されるものとする. $ $ ! ! ポリゴンの表裏判定 描画コストを低減させるため,各ポリゴンを構成する頂点の記述順によって表裏判定 を行い,表向きと判断されたポリゴン以外にはテクスチャマッピング処理は施さない. ポリゴン頂点の順番は,表から見て左周りに記述しておき, 次元平面上での頂点の 記述順からパッチの表裏判定を行うと,記述順が左りなら表向き、右周りなら裏向き と判断される. ポリゴンを構成する 頂点を , , とするとき,テクスチャ面積 は式 で求められる. $ ! このとき, を満たすポリゴンが表向きと判断され,その表面上にテクスチャが貼り 付けられる. u x (x1 , y1 ) v (u1 , v1 ) y (x3 , y3 ) (u2 , v2 ) (u3 , v3 ) (x2 , y2 ) Polygon projected onto screen Texture Image 図 テクスチャマッピングの概念 ! 隠面処理 対象とするモデルをディスプレイ上に表示する際,手前に存在する物体または物体の 一部によって隠されて本来見えない面(隠面)を消去する作業が必要となる(図 参 照).一般に隠面消去処理に要する演算時間は,多角形などの立体構成要素の 乗に比 例するため膨大な演算時間を要するが,処理高速化のため, バッファ法を用いる.こ の方法では, バッファと呼ばれる 次元配列を利用してピクセルごとに処理を行ない, 隠面消去を行う. バッファを ,画像用フレームバッファを !!" としたとき,処理は以下の手順で行われる. 画面上の全ピクセルについて, の値を式 ,!!" の値を式 に示すように,背景色に初期設定する(ここでは青 # ! とする). $ ! Polygon Polygon Z Y X Screen 図 隠面消去 !!" $# ! 情景中の各多角形が画面に投影されたとき,多角形の領域内に含まれるピクセル ! を見い出す. その各ピクセル ! の深度 を計算する. もし, ならば,このピクセル ! を含むこの多角形がそれまでに 扱われた多角形のなかで,最も視点に近いことを表している.その場合, に を代入し,!!" には多角形の色を代入する.他方, ならば,すでに視点により近い多角形が存在しているため,何の処理も行わない. まとめ 本章では,本論文中でディジタル画像,および 次元コンピュータグラフィックスを 扱う上で前提としている数学的な諸定義(座標系,カメラモデル, 次元オブジェクト 表示方法)について述べた. また,, 章にて述べる手法で使用する 次元顔モデルの基本的な形状構築原理お よび表示方法についても述べた. 第章 テンプレート補間照合による 次元人物顔方向の計測法 はじめに 人物顔方向変化からは,興味の対象を理解したり,会議などのように複数の人物が 参加している会話において,誰が誰に対して話しているのか察知することが容易にで きる. そのため,人物顔方向認識や角度計測に関する研究は活発に行われてきている.そ の多くはモデルベース符号化における顔の動き補正や,ロボットに人物の興味対象や ジェスチャを識別させるシステムや,仮想空間内で利用者の視線に合わせた画像を提 示するようなシステムの要素技術として期待されている. これらは,デバイスを用いることにより顔動作や表情を計測する方法と,カメラ画 像中から画像処理を用いることによって顔情報を分析・認識する方法に大別される. デバイスを用いた手法では,磁気センサなどの機材が人物顔や頭部に装着され,動 作パラメータが読み取られる このアプローチでは,実時間で高精度な顔角度計測が 期待できる反面,デバイスを顔や頭部に直接接触させる必要があるため,マンマシン インタフェースとして快適とはいい難い. 一方,画像処理を用いた手法としては,赤外画像を用いて頭髪領域と顔領域を区別 し,その相関関係より顔方向を推定する手法 ,複数の方向画像を用いた固有空間法 による手法 ,色情報を用いた手法 ,顔部品の配置の偏りを用いた手法 , 人物顔画像からの速度ベクトル(オプティカル・フロー)の検出により見かけ上の動 作を算出し* 次元動きパラメータを推定する手法 ,剛体の 次元動作パラメータを 画像の時空間勾配から直接推定する方法 などが提案されている 赤外画像を用いた手法の場合,赤外線カメラを用意しなければならない上に,使用 者の頭髪の量に処理結果が依存するという欠点がある. 色情報を用いたものとしては人物頭部領域と顔領域の重心を求め,両者のずれから 顔方向を推定する手法がある .この処理は簡便であり, 枚のモノクローム画像中 から実時間顔方向推定が可能となるが,精度が粗く,実用化する上で限界があった. 顔部品の配置を用いた手法としては,顔領域と目・鼻領域の相対的位置関係を用い たものや顔画像の濃淡値より統計的に求める手法などがある.これらの手法による良 好な推定結果も報告されているが,推定可能な姿勢範囲が狭いという欠点がある.ま た,前章にも示した通り,顔領域や顔部品の領域を的確に抽出するのは困難であり,画 像取得条件に制約をつける必要がある. 固有空間法では,様々な方向から得られた固有顔画像を行列に並べて固有値分解す ることによりベクトル表現し,入力画像ベクトルと最も類似したものを求める.比較 的ポピュラーなアプローチであり,多くの報告例が出ているが,高精度な認識を行う ためには処理時間がかかるため,リアルタイム処理には不向きであるといえる. オプティカルフローを用いたアプローチも広く行われているが,見かけ上の動きを 中間結果としているため処理が複雑になってしまうという問題点がある上,この中間 結果を算出するときの誤差が後の推定に影響を及ぼすということも考えられる また, 人物の顔のような非剛体に剛体の 次元動作を直接推定することに関しても疑問符が つく 本章では,カメラ入力された画像中の人物の顔方向計測を目的とした人物顔画像に よる 次元離散テンプレート系列を用いたテンプレート補間照合法を提案する(図 参照) これにより,非接触,かつ従来の画像処理に基づくアプローチのように,複雑 な計算処理を必要とせず,人物顔角度の高速かつ高精度な計測が実現される. まず,異なる角度より取得された 次元人物顔画像を予め標準パターンとして等間 隔に並べておき, 次元離散テンプレート系列を作成する.入力された顔画像と全数照 合することにより,左右,上下,傾斜方向の顔方向の推定を高速・高精度で行う.さら に,変形テンプレート補間法 を応用することにより,隣接したテンプレート間の 補間計算処理を行い,より少ないテンプレートデータ量で処理を実現する. 提案手法 提案手法は次の手順で行う(図 ). 異なる角度から人物顔画像を取得し,正規化処理を施した後,左右・上下・ 傾斜方向に等間隔に並べることにより 次元離散テンプレート系列を作成する. カメラ入力画像より顔領域を切り出し,正規化処理を施す. で得られた画像を で作成した 次元離散テンプレート系 列を構成する画像と全数照合し,単純類似度の合計の最も高いテンプレートの組 を選択する. 隣接したテンプレート間の類似度は線形に変化していると仮定し,補間計 算を行うことにより,より少ないテンプレート数による人物顔方向の計測を実現 する. 以下 ∼ 章では各ステップの詳細について述べていく. Face Images acquired from various angles Camera Input Image Extraction and Modification Extraction and Modification Step 3 Template Matching Step 2 Interpolation Face Direction (x◦ , y◦ , z◦ ) 3D array of discrete templates Step 1 Step 4 図 人物顔角度の計測法 離散テンプレート系列の作成 濃淡情報 人物顔を用いた画像処理に必要な情報は濃淡情報でも充分だという報告もなされて いる上 ,入力画像のデータ量を に減らすことができるため,カメラ画像の濃淡情 報のみを用いる. 濃淡情報は,カメラ画像中の各画素を光の 原色である赤,緑,青の各成分に分解し たときの信号強度(それぞれ ,$,# とする)を輝度信号( )と色差信号(% ,& ) に変換することによって得られる は人間の各原色に対する明るさを感じる度合からつくられ* 画素における明るさ (濃淡)をあらわす % *& はそれぞれ と の差分,# と の差分であらわされ,色 情報を構成する色相(色相)と彩度(色の濃さ)はこの つの信号の組合せによって 決まる *% *& は式 によって求められる % & $ $ ! # 正規化処理 認識処理をおこなう際,個々の人物顔部品を用いた場合よりも人物顔全体を用いた 方が精度が高いという報告もなされているため ,顔全体の特徴を抽出して用いる ことにする. まず,カメラ角度を上下,左右,傾斜方向に等間隔に変化させ,異なる顔角度の人 物顔画像を取得する.次に,これらの画像中より,人物顔全体の外接矩形領域を切り 出す. 人物顔方向変化によって切り出される領域の大きさは変化する.しかし,入力画像 とテンプレート画像が同じ大きさでなければ後述するテンプレートマッチング処理を 行うことができないため,顔画像の縦横比を変化させ,! !(画素)の大きさに補正 する. また,入力画像における雑音や表情変化などによる影響を低減するため , × の線形平滑化フィルタ ' !$ ) ( ) !! ) !) ' を施し,画像をぼかす. 以上の処理を正規化処理と定義する. ! テンプレート系列 図 次元離散テンプレート系列の一例 章の処理によって得られた画像を左右,上下,傾斜方向に並べることにより, 次元離散テンプレート系列を作成する. °おきに顔を変化させて製作した の 次元離散テンプレート系列(左右方向 °,上下方向 °)を図 に示す. 以降の処理では,離散テンプレート系列を構成する画像をそのまま多次元ベクトル として用いる. 最類似テンプレートの選択 パターン認識は既知のパターンを類似したパターンごとにいくつかのカテゴリに分 類した後,各カテゴリをそれぞれ異なる概念に対応させ,未知のパターンがどのカテ ゴリに属するのかを決定する処理である.その代表的な手法の一つとしてテンプレー トマッチングが挙げられる テンプレートマッチングの基本的な考え方は,予め標準パターン(テンプレート)を 用意しておき,与えられた入力パターンを各標準パターンと重ね合わせ,最も重なり 合った標準パターンのカテゴリを出力するものである. テンプレートマッチングの評価尺度としては,+, 距離や - 距離 など のように,各画素の差分の合計を計算するものが一般的である.これらの手法は,工 場での部品検査などのように,照合する部品とテンプレートとなる部品が同じ形状の 場合に有効であるが,照明変化に対しロバストな手法であるとは言い難く,入力画像 が種々のひずみや雑音などの影響を受けることも予想される.そのため,正確な顔画 像マッチング結果を得るのは困難だと考えられる. 両パターンのベクトル間距離をそのまま使用する方法よりもパターン全体の特徴の 相関を用いて類似性を算出した方が適切であると考えられるため,類似度法を用いる ものとする. g Θ f 図 類似度法のベクトル表現 類似度法では,テレビ走査型に画像をなぞっていき,画素毎に得られる濃度値を書 き連ねることにより,全体を一本のベクトルとして考える. ここでは, $ ! を入力画像の各画素における濃淡値を要素としたベクトル, $ ! を標準パターン(テンプレート画像)の各画素における濃淡値を要素としたベクト ルとそれぞれ定義する. ここで, , は標準パターンおよび入力パターンの 番目の画素における濃度値を あらわしており( !. ! はパターンを構成する画素の総数), は転置記号で ある 超空間で と の成す角度が °に近ければ近いほど, 枚の画像は類似していると 考えられる(図 ) ベクトル と が成す角を / とするとき, つのベクトルの内積の定義 $ / ! '" より, と の類似性 ( は, ( $ / $ ! で求められる(但し, ( ). この時の量 ( は単純類似度と呼ばれ,パターンの濃度や画像の明るさなどに依存し ない画像間の類似性を具体的な数値であらわすことができる. 入力画像中より人物顔領域を切り出し,正規化処理を施した後, 章に述べた 次 元離散テンプレート系列と全数照合し,最も類似したテンプレート画像を単純類似度 により選択する. 隣接テンプレート間の補間計算 顔角度計測精度を向上させるためには,用意するテンプレートの数を増やす必要が あるが,なるべく少ないデータ量による処理が望ましい.そのため,次に述べる変形 パラメータ推定法の考え方に基づき,隣接したテンプレート間の補間計算を行う.こ れにより,入力画像と完全一致のテンプレートが存在する場合とほぼ同等の精度で顔 角度の算出を図る. 変形パラメータ推定法 入力オブジェクトの変形がある関数に従って生じる場合, 次元の離散的なテンプ レート系列を設けておくことにより,入力オブジェクトと完全に一致するテンプレー トが無い場合でも,ほぼ完全一致のテンプレートがある場合と同等の精度で変形パラ メータを推定できる方法が小池,田辺によって提案されている . 識別対象のオブジェクトの変形が一列に並んだ複数のテンプレートによって離散的 にあらわされているとき,隣接した実在のテンプレートの間には,仮想的なテンプレー トが無数に存在すると考えることができる.これらの中から入力画像に最も類似した ものを選択し,これと入力画像との間の単純類似度を用いるのが妥当であるといえる. この考えを用いた手法をテンプレート補間照合と呼ぶ. 実在するテンプレートの中で入力画像と最も類似した 0 1 * と,0 1 * に 隣接したテンプレート 枚のうち,入力画像により類似した 0 1 * ) を選び,入 力画像を含めた 枚の画像間の単純類似度 2 * , 2 * ) , 2 * * ) ! を使用することにより,変形パラメータを近似する.この概念を図 に示す. あらかじめ予想される変化には影響を受けず,位置ずれや未知の変形に対してその 値が低下するオブジェクトとテンプレートの類似性をあらわすようなパラメータを類 似性パラメータと呼ぶ. ... Template K Similarity F (similarity=0.4) ... Input Image Interpolated Similarity Interpolated Template FF+1 (similarity=0.48) ... (Similarity Unknown) Similarity F+1 Template K+1 (similarity=0.6) ... Template K+2 (similarity=0.8) ... 図 線形補間法の概念 arccos m g 1 f f f 2 t 1 図 ベクトル表現を用いた類似性パラメータの算出 ここでは, を入力ベクトルと最も類似したテンプレート画像のベクトル, を入 力ベクトルにより近い の隣接テンプレート画像のベクトルとする. 補間テンプレー トベクトル が , を含む平面と,その平面に垂直に交わる を含む平面の交線上 に存在すると仮定する(図 ). このとき, に対する入力画像ベクトルは の単純類似度 ( は と との間の ( , と との間の ( ,および と との間の ( を用いれば,次の式より求められる. ( $ ( ) ( ( ( ( ( ! ! オブジェクトの変形をあらわし* オブジェクトの位置関係をあらわすパラメータを構 造パラメータと定義するとき,入力画像ベクトル の構造パラメータは,対応する補 間テンプレートベクトル を用いるのが都合が良い. の構造パラメータおよび の構造パラメータに対し, と が成す角度,および と がなす角度を用いて,比例配分を用いて考える. を の構造パラメータ, を の構造パラメータとするとき, の構造パラメー タは, $ ) ! '" で算出できる(但し, '" ! ( ). 補間計算法 顔方向を上下,左右,傾斜方向に °刻みに変化させて取得した顔画像と正面顔画像 との類似度を計算したときの,角度変化と類似度の関係を図 に示す. これより,人物顔方向が変化する時の類似度の変化はほぼ線形であると仮定できる. 隣接テンプレート間の変化が線形に生じていると仮定すれば,完全一致のテンプレー トを用意していない場合でも,入力画像とテンプレート画像との間の単純類似度の線 形補間計算を行うことにより,前述の変形パラメータ推定法よりも,簡便な計算によ り顔角度パラメータを求めることができると考えられる. このような考えに基づき,単純類似度を用いた線形補間計算により,顔角度推定を 行う. 次元的な計測への拡張 前述の変形パラメータ推定法では,オブジェクトの 次元的な変化を対象としてお り,入力画像と完全一致の仮想テンプレートが類似度の最も高い 枚のテンプレート の間に存在すると仮定している 1.00 Similarity 0.95 0.90 Horizontal 0.85 Vertical Diagonal 0.80 −45 −30 −15 0 15 30 Difference of Face Angle [deg] 図 顔角度変化と類似度の関係 45 この手法を 次元的な変化をするオブジェクトに拡張するため,入力画像と類似度 が最も高い 枚のテンプレート画像の間に入力画像と完全一致の仮想テンプレートが 存在すると考えられる. しかし,単純に類似度の高い 枚のテンプレートを選択した場合,他テンプレート と隣接していないテンプレートが選択されてしまうという失敗が考えられる.そのた め,隣接した 枚のテンプレートを組として考え,組毎に類似度の合計値を取り,こ の値が最も高かった組を選択する 選択された 枚の隣接テンプレートの中心を結んだ立方体内に,入力画像と完全一 致の仮想テンプレートが存在すると仮定する. Pi,j Pi+1,j Pu,v P i+1,j+1 Pi,j+1 図 線形補間法 顔角度を算出するにあたり,線形補間法 を応用して用いる. 線形補間法は図 に示すように,ある画素アドレスが格子点と一致しない場合,近 傍の 個の格子点からの距離の比を求め,この比率で近傍 画素の濃度値を用いて補 間計算を行う手法である.この濃度値 の計算を式であらわすと, $ ) ! ) + ) ! !+ ) ! ! ) ) ! ! ) ! + ! ! + ! となる. この計算法を応用し,隣接テンプレートの単純類似度を直接用いて顔角度を算出す る.仮想テンプレートの中心は,選択された 枚のテンプレートの中心を結んだ立方 体の縦,横,奥行きの辺をそれぞれ !,, , !, !,に配分する点 であると考える事ができる. 1 similarity m1 m2 0 p dividing parameter 1 図 補間計算式 最類似テンプレート の類似度を ( ,垂直方向に隣接したテンプレートの の類 似度を ( とする.隣接した 枚のテンプレート画像間の変化が線形ならば,図 か らわかるように, ( ( $ ! が成り立つ.式 を について解くと, $ ( ! ( ( が得られる. 同様にして,( と水平方向に隣接したテンプレート の類似度 ( を用いることに より, , $ ( ! ( ( が得られ,( と奥行き方向に隣接したテンプレート の類似度 ( を用いることに より, $ ( ( ( ! f5 f6 f1 f2 p q f7 1-r 1-q r 1-p ft f3 f f 1-8 t f8 f4 : Neibouring Templates : lmaginary Template 図 枚の隣接テンプレートを用いた補間計算 が得られる(図 参照). 式 より,上下,左右,傾斜方向の角度 °, °, °はそれぞれ次の式で計算さ れる. $ ! ) ! $ , ! ) , ! $ ! ) ! ここで, , , はテンプレート の 上下,左右,傾斜方向の角度をそれぞれ 表すパラメータと定義する. ! 基礎実験 条件 入力カメラ画像中の顔角度を正確に把握するのは困難であるため, 次元顔モデルを 構築し,これを用いて入力画像およびテンプレート画像を作成し,評価実験に用いる. 一般的な室内光のもと,全周囲型 次元スキャナ(3242 社製・5 562 &7')を用いて 代の日本人男性 名の無表情時および有表情時(口を大きく開 いているとき) 次元顔形状および色情報を取り込んだ. 髪の毛はレーザ光線をきれいに反射しないため,髪にベビーパウダを撒布して計測 を行った. 次元スキャナで頭部全周を取り込むのに約 秒かかるが,その間,被験 者は呼吸や動作を止めておくようにした.なお,測定する際に頭部の微少な動きによ り生じる誤差は微小であるため,無視している.欠損した頭部部分はグラフィックソフ トを用いて手作業で修正し,理想的な無表情および有表情 次元顔モデルを 個ずつ 作成した. また,テンプレート系列としては人物頭部の稼働範囲を想定し,前述の顔モデルを 左右方向± °,上下方向± °,傾斜方向± °の範囲で °おきに変化させて顔 画像を取得し, × × の 次元離散テンプレート系列を作成して用いた. なお,使用した画像はいずれも (画素)の 3 白黒濃淡画像である. 計算機は 78 社製グラフィックワークステーション(78 8. #" 98# & 9-6* &9 9'* 721: 8 3)を用いた. ! 表 入力画像の顔角度 無表情顔画像を用いた計測 提案手法では 枚の隣接テンプレートの類似度を用いて補間計算を行っているため, 入力画像と完全一致のテンプレートが存在する場合 枚の隣接テンプレート間に入力画像と完全一致の仮想的なテンプレートが存在 する場合 枚の隣接テンプレート間に入力画像と完全一致の仮想的なテンプレートが存在 する場合 枚の隣接テンプレート間に入力画像と完全一致の仮想的なテンプレートが存在 する場合 が考えられるが,それぞれの場合における計測結果を確認し,且つなるべく少ないデー タ量でアルゴリズムの有効性を示すため,表 に示す角度の 枚の入力画像として 用いた.* * ! は右方向に °,上方向に °,正の傾斜方向に °傾いた顔画像をあ らわしている. 前述の処理によって製作された無表情人物顔モデルの顔方向を上下,左右,傾斜方 向に °おきに変化させ,表 に示す角度に変化させて得た 枚の顔画像を作成し, 入力画像として用いた.なお,* * ! は右方向に °,上方向に °,傾斜方向に °傾 いた顔画像をあらわしている. 同じ顔モデルを °おきに変化させることにより作成した (左右方向 °,上下方向 °,傾斜方向 °)の 次元離散テンプレート系列をテンプレート 系列として使用し,上下,左右,傾斜方向の顔角度計測を行った. ! 結果・考察 左右方向の角度計測結果を図 ,上下方向の角度計測結果を図 ,傾斜方向の 角度計測結果を図 にそれぞれ示す. 軸に入力画像の左右方向の角度, 軸に算 出された角度を示している.また,実線は理論値をあらわしている. 平均して左右方向 °,上下方向 °,傾斜方向 °の誤差で顔角度を 算出できた. 隣接した 枚のテンプレートのブロックは入力した 枚全てについて確認できた. 図 ,図 を見ると,理論値と計測値との誤差が局所的に跳ね上がっている部 分があるが,これは 枚の隣接したテンプレート間に入力画像と完全一致の仮想テン プレートが存在しているとき(左右方向に °* 上下方向に °傾いている場合,左 右方向に °* 上下方向に °傾いている場合など)であり,最大で °の誤差が 検出されている.これは線形補間を用いることによるデメリットであり,これを解決 するためにはアルゴリズム面において工夫を施す必要がある. ! 有表情顔画像を用いた計測 有表情顔画像(口を大きく開いている顔画像)を使用し,前述の無表情顔画像と同 様にテンプレート補間照合を行った. テンプレート系列は前述の の無表情顔画像を用い,有表情顔モデルを表 に示した角度に変化させて得た画像 枚を入力画像として用いた. ! 結果・考察 左右方向の角度計測結果を図 ,上下方向の角度計測結果を図 ,傾斜方向の 角度計測結果を図 にそれぞれ示す. 軸に入力画像の左右方向の角度, 軸に算 出された角度を示している.また,実線は理論値をあらわしている. 平均して左右方向 °,上下方向 °,傾斜方向 °の誤差で顔角度を 算出できた. 図 ,図 から判るように,無表情顔画像を用いたときよりも全体的に誤差が 大きく出ており,特に $ °, °のときには誤差が極端に現われているが,大きな 表情変化のある入力画像を用いたときでも,この計測手法は有効であることが確認で きた. 計測時間は 章に示した計算機上でソフトウェア実装したところ 枚の入力画像に つき 秒程度要したが,アルゴリズム改良やハードウェア最適化などによって解決で きると考えられる. まとめ 本章では,人物顔画像による 次元離散テンプレート系列を用いたテンプレート補 間照合法による 次元人物顔角度計測法を提案した. 異なる方向より撮影された人物顔画像を標準パターン(テンプレート)として左右, 上下,傾斜方向に並べておくことにより, 次元離散テンプレート系列を作成した.単 純類似度を用いて入力顔画像と 次元離散テンプレート系列を構成する画像とを全数 照合し,最も類似度の高い 枚の離散テンプレート組を選択した後,隣接したテンプ レート間の補間計算を行うことにより,より少ないテンプレート数による人物顔角度 の計測を実現した. 基礎実験結果より,無表情人物顔画像を用いて上下,左右,傾斜方向の顔角度を± ∼ °程度の誤差で顔角度を算出可能であることを明らかにした.また,表情変化の大 きな入力画像を用いた際でも,入力画像にたいしても ∼ °程度の誤差で顔角度が 計測できることについても確認した. この手法を用いることにより,頭部や顔上にデバイスを装着する必要が無く,従来 の画像処理技法に基づくアプローチのように複雑な計算処理を要せずに, 次元人物顔 角度変化の高速かつ高精度な計測が実現可能となる. 今後はテンプレート作成法や計測アルゴリズム改良などに関するさらなる検討を行っ ていくことにより,磁器センサ等のデバイスを使用した時と同等以上の精度・速度に よる非接触計測を実現する必要がある. 40 Calculated Horizontal Angle [deg] 30 20 10 0 Real Value x=−30 x=−20 x=−10 x=0 x=10 x=20 x=30 −10 −20 −30 −30 −20 0 −10 10 20 30 Input Horizontal Angle [deg] 図 無表情顔画像の 次元角度計測結果 左右方向 40 30 y=30 Calculated Vertical Angle [deg] 20 y=20 y=10 10 0 y=0 −10 y=−10 y=−20 −20 −30 y=−30 Real Value −40 −30 −20 0 −10 20 10 30 Input Horizontal Angle [deg] 図 無表情顔画像の 次元角度計測結果 上下方向 30 Calculated Diagonal Angle [deg] 20 10 0 Real Value z=−30 z=−20 z=−10 z=0 z=10 z=20 z=30 −10 −20 −30 −30 −20 0 −10 10 20 30 Input Horizontal Angle [deg] 図 無表情顔画像の 次元角度計測結果 傾斜方向 40 Real Value x=−30 x=−20 x=−10 x=0 x=10 x=20 x=30 Calculated Horizontal Angle [deg] 30 20 10 0 −10 −20 −30 −20 −30 0 −10 10 20 30 Input Horizontal Angle [deg] 図 有表情顔画像の 次元角度計測結果 左右方向 30 Calculated Vertical Angle [deg] 20 10 y=30 y=20 y=10 y=0 0 −10 y=−10 y=−20 −20 y=−30 −30 Real Value −40 −30 −20 0 −10 10 20 30 Input Horizontal Angle [deg] 図 有表情顔画像の 次元角度計測結果 上下方向 30 Calculated Diagonal Angle [deg] 20 10 0 Real Value z=−30 z=−20 z=−10 z=0 z=10 z=20 z=30 −10 −20 −30 −30 −20 0 −10 10 20 30 Input Horizontal Angle [deg] 図 有表情顔画像の 次元角度計測結果 傾斜方向 第章 テクスチャの張り替えによる人 物顔画像の再構築 はじめに 章にも述べたように,モデルベース符号化に基づくアプローチにおいて,表情変化 をあらわすパラメータを抽出するのは困難である.また,無表情 次元顔モデルの形 状変形だけでは表現するのが困難なディテール(皺,肌の質感変化など)や,モデリ ングが困難なオブジェクト(眼球、歯、舌など)があるため,十分なリアリティが得 られないなどの問題点がある. 一方,カメラ入力された画像は,モデルベース符号化的なアプローチでは表現困難 な情報を有しているため,カメラ入力画像をそのまま使用することにより, 次元人物 顔画像を再構築するという考え方に立つべきである. この考え方に基づいたアプローチとしては,異なる方向から取得された複数枚の顔 画像をもとに 次元再構築するアプローチ がなされている.しかし,このアプロー チでは顔上に特徴点を配置する必要があり,これらの特徴点を自動的に抽出すること が困難であるため(特に頬や額のように,明確な特徴を持たない顔部位上の特徴点な ど),筆者らが想定しているような通信システムへの応用は困難であると考えられる. 特徴点抽出が不要な方式としては,アニメーションの原理に基づき,カメラ入力動 画像中の人物顔画像をそのまま 7 作成されたオブジェクト上にテクスチャマッピン グする試みがなされているが , 次元平面や円筒形オブジェクトがテクスチャ 貼り付け対象として用いられている.そのため,異なる方向から参加者の顔の見え方 を正しく呈示できるわけではない. もし,このアプローチの原理をモデルベース符号化の枠組みに取り込み,予め用意 しておいた人物顔を模した 次元モデル表面上のテクスチャをカメラ入力画像を用い て適切に更新していくことができれば,簡便な原理で,より実世界における人物顔に 近い顔画像を任意方向の構築が可能になると考えられる. 本章では以上をふまえ,カメラ入力動画像をそのまま使用し, 次元顔モデル表面上 のテクスチャを適切に張り替えていくことにより,従来アプローチよりもリアリティ が高く実際の人物顔に近い 次元顔画像を再構築する手法を提案する. まず,人物の正面・側面顔画像を用いることにより,人物顔形状を模した 次元顔形 状モデルを予め構築しておく.次に,フレーム間差分と輝度プロジェクションを用い てカメラ入力動画像フレーム中より人物顔領域を抽出したあと,正規化処理を施す. 章に述べた 次元人物顔方向計測法を用いて 次元顔角度を計測し,この結果をもとに 入力画像フレームを補正し,擬似正面画像を作成する.こうして得られた擬似正面画 像を用いて前述の 次元顔形状モデル上のテクスチャを張り替えていくことにより,顔 形状モデルを変形するだけでは実現困難な表情変化を簡便な原理によって再構築する. これにより,人物顔動作に自由度をもたせることができ,特徴点抽出処理を要せず, カメラ入力画像の特徴をそのまま保持したリアリティの高い 次元人物顔画像構築を 実現する. 提案手法 提案手法は次の手順で行う(図 ). 人物顔領域の抽出 入力動画像のフレーム間差分を求めた後, 値化差分画像の輝度プロジェクショ ンを用いることにより,人物頭部領域を特定・抽出する.画像サイズ変換および フィルタ処理により,抽出顔領域の正規化を行う( 章参照).また,このと き得られた位置情報も保存しておく. 人物顔角度の計測 章で述べた手法により, で得られた画像中の人物顔角度を計測する. 次元顔画像の再構築 正面および側面人物顔画像を使用し,人物顔形状を模ったパーソナル 次元顔形 状ポリゴンモデルを構築しておく( 章参照). で計測された顔角度お よび で得られた人物顔位置情報をもとに,カメラ入力画像が適切に 次 元顔モデル表面上に適切に貼られるようにする.マッピングするテクスチャを連 続的に張り替えることにより,アニメーションの原理で顔表情変化を表現する. 以下 ∼ 章では各ステップの詳細について述べていく. 人物顔領域の特定と抽出 連続フレーム間差分 画像認識・解析において,入力画像からの対象物体の抽出は特に重要な課題の一つ である.とりわけ,人物顔画像を用いたシステムの構築においてカメラ画像中の人物 顔領域の的確な抽出は不可欠であり,様々な手法が提案されてきた .しかし, 図 提案手法の流れ Step 2 Extracted/Modified Face Region Face Direction Measurement 3D Array of discrete templates Face Region Extraction/ Modification time Input Images Step 3 Reconstructed Images time Pseudo-frontal Image Creation/ Texture remapping Initial 3D Face Model 3D Face Shape Model Step 1 Mapping of Initial Texture Model Construction Frontal image Profile image これらの手法は一長一短あるため,使用する上で工夫をしたり,幾つかの手法を併用 したりする必要がある. 先にも述べたように,筆者らはカメラ入力画像のみを入力とし,画像を取得する際 にも特別な制約を設けないことを想定しているため,比較的処理が簡便であり,背景, 照明,色情報,人物の顔の大きさ・位置といった条件になるべく制約を付ける必要がな いような手法が望ましい.また,対話中の人物の顔領域は連続的に変化しており,完 全静止することが少ないと考えられるため,このような特性をいかしたアプローチを 取るのが良いと考えられる. そのため,連続した フレーム間の差分情報を用いることにより,画像中の移動物 体の位置(ここでは頭部領域)を特定する .次に,差分 値化画像の垂直方向およ び水平方向の白画素数をカウントしていくことにより,輝度プロジェクションを作成 し,人物顔領域を特定する fi di oi Binarization Extracted Image f i+1 Input Frames 図 フレーム間差分 フレーム間差分を用いるアプローチでは,時系列上で連続した 枚の入力フレーム (現フレームと次フレーム)を取得し,この 枚のフレームの各画素の差分を求め,任 意の閾値で白(輝度値 $ ),黒(輝度値 $ )に 値化し,差分画像の階調値より 移動物体位置を特定する(図 ). あるフレーム ! と次フレーム ! が与えられた場合,次のような式で差 分画像 ! を求める. ! $ ! $ ! ! ! ! ! - ! f i-1 d ifi gi oi d i+ f i+1 Input Frames Binarization Extracted Image Face Region Estimation 図 連続した 枚のフレーム間差分 式 において は 値化するときの閾値を示している.このとき,差分画像の階 調値が非零となった部分が移動領域とみなされ抽出される. フレーム間差分画像を求める方式は,背景,照明,衣服による影響は小さくなり,細 かい条件をつける必要はさほどなく,処理が簡便であるため,ハードウェア上の実装 が比較的簡便である.しかし,フレーム間で移動物体の位置や大きさが変化した場合, 輪郭部が不明瞭になり,抽出が正確に行われなくなるおそれがある.そのため,フレー ムを 枚追加し,連続した 枚のフレームを使用する. 具体的には,フレーム ! と ! の 値化差分画像 ! およびフレー ム ! と ! の 値化差分画像 ! を式 を用いて求める. 値化する際の閾値 は 枚の画像の単純差分画像の濃度ヒストグラムを作成し, その谷値より決定して用いる.なお,連続した 枚のフレーム間の差分が充分得られ なかった場合は,その次の入力フレームを用いて差分を計算する. !, ! の論理積を計算することによって差分画像 ! $ ! ! ! を得る.このとき, ! はフレーム ! 中の動領域を白画素にした 値画像 になっていることがわかる. ! 中の白画素分布領域を調べることにより人物顔領 域の輪郭を得ることが出来る(図 ). 輝度プロジェクションを用いた領域特定 前節で得られた 値化差分画像 ! 中から対象物・領域を抜き出すとき,この画 像に膨張・収縮処理を施すことによりマスク画像を作成し,抽出を行う手法が一般的 であるが,このときの膨張・収縮処理は経験に基づいて決定したり,途中の処理結果 を見ながらチューニングする必要がある.また, フレーム間の差分を用いた抽出法は 元々通行車両の監視を対象として開発された手法であるため,非剛体で動き方が一定 では無い人物の顔にそのまま手法を適用するのは困難である. そのため, 値化差分画像 ! の輝度ヒストグラムを作成することにより,高速・ 高精度で人物顔領域を特定し手から抽出を行う. まず,前述の操作によって得られた画像 ! に × のメディアンフィルタ ! $ (! ) ( ) !! ( ! ! を施し,細かい雑音を除去する.ここで,(! は中央値を与える関数とする. 次に,画像の各列を逐次的にスキャンしていき,列毎に白画素の数をカウントして いくことにより,垂直方向の輝度プロジェクション ! を投影する. 前述したように,人物の顔は形状がはっきりとせず,表情変化も差分として検出さ れてしまうため,この時得られる輝度プロジェクションは凸凹が激しく,立ち上がり 点,立ち下がり点の位置が判定しづらい.そこで,次の計算式を用いることにより,輝 度プロジェクションに対し,整形処理を施す. !$ !) ! ! 整形処理前と整形処理後の垂直方向輝度プロジェクションの例を図 に示す. プロジェクションのピーク値より左右の列をスキャンしていく事により,顔領域の立 ち上がり点,立ち下がり点を決定する.この時得られた 点を顔領域の両端とみなし, 横幅を切り出す.切り出された画像に対し,水平方向の輝度プロジェクション ! を作成し,同様に整形処理を行う.整形処理前と整形処理後の水平方向輝度プロジェ クションの例を図 に示す. 画像上部より探索し,画素の非零値が最初に得られる点を顔領域の上端とみなす.次 に,画像下部より探索し,プロジェクションの谷値が得られたところを顔領域の下端 とみなし,顔領域の縦幅を切り出すことにより,抽出顔画像 ' ! を得る. このときの顔領域の頂点位置およびサイズは後述する 次元顔画像の再構築処理で 必要になるため,同時に保存しておく. 最後に, 章にて述べた方法で正規化処理を施すことにより,人物顔位置や顔方向 変化によって生じる変化,雑音や表情変化による影響を軽減する. Py(x) Py(x) 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 50 100 150 200 0 300 250 0 X ! 整形処理前 100 50 150 200 250 300 x 3! 整形処理後 図 垂直方向の輝度プロジェクション ! y y 250 250 200 200 150 150 100 100 50 50 0 0 10 20 30 40 0 Px(y) ! 整形処理前 0 10 20 3! 整形処理後 図 水平方向の輝度プロジェクション ! 30 40 Px(y) 次元人物顔角度の計測 前節の処理によって得られた画像を入力パターンとし, 章に述べた手法により上 下,左右,傾斜方向の顔角度計測を行う. 擬似正面画像の生成 前述の処理により,入力画像より得られた顔の位置および顔角度データ .! を 用いて 次元動き補償を行うことにより,入力動画像フレームを補正し,擬似正面画 像を作成する.この処理によって得られた擬似正面画像は後述するテクスチャ張り替 え処理の際に用いるものとする. 顔の位置パラメータを !,顔方向パラメータを .! とするとき,入力 画像の頭部の動き行列は / $ ! ! .! ここで ! $ ! ! ! ! ! ! $ ! .! $ .! .! $ ! ! ! ! ! .! .! ! ! で与えられる. 次元空間を 次元平面へ射影する射影行列を とすると,無表情の 次元モデル頂 点 の正面画像上の点 ,入力画像上の点 はそれぞれ $ ! $ / ! となる. これより,入力画像を正面画像に変換したときの点 は を用いて以下のように あらわされる. $ $ / ! 式 ,式 より各ポリゴンの各頂点について射影座標を算出し,三角形 を三角形 に変換するアフィン変換をポリゴン内の各画素に施すことで擬似的 な正面画像を生成する(図 参照). i 1’ i3 i1 i 3’ i 2’ i2 図 次元動き補償の概念 テクスチャの張り替え 予めパーソナル 次元顔形状モデルを構築しておき(構築方法の詳細は 章参照), 初期状態では,このモデルを構成する各三角形ポリゴン上に顔形状モデル構築時に使 用した正面顔画像をテクスチャマッピングしておく( 章参照). 顔表情の違いによる変形部分として挙げられるのは,目の動き,口の動き,肌のし わの つである.このうち皺や肌の質感変化,目の動きは形状の変化というよりも,む しろモデル表面上のテクスチャの変化として近似できると考えられる.また,口の動 きに関しても,顎の変形が十分小さいと仮定すれば平面上の動きに近いと思われるた め,形状の変化よりもむしろテクスチャの変化により,表情変化を再構築するという 考えに立つ. 次元顔形状モデルの変形は行わず,入力顔画像を連続的に張り替えていくことによ り,テクスチャ変化を利用して表情変化を生成する. 人物顔表情変化は目・口・眉などの顔の局所的な変化を用いることによってある程 度表現できるという考えに基づき, 次元顔形状モデルの特定部位のみを更新すること も考えられるが ,張り替える画像の濃度や品質による影響が大きく,局所的にテク スチャの不連続部分が生じてしまうおそれがある.そのため,モデルを構成する全て のポリゴン上のテクスチャを張り替えるものとする. 初期状態では,図 に示すように,各ポリゴン頂点とテクスチャ画像とが対応付け られている.このときの対応関係を保持したまま,テクスチャ画像を現フレームの擬 似正面画像と差し替えていくことにより, 次元顔形状モデル上のテクスチャ張り替え 処理が行われる. Screen Texture image (Frontal Image) x u y v (x1 , y1 ) (u1 , v1 ) (u2 , v2 ) (x2 , y2 ) (x3 , y3 ) (u3 , v3 ) Enlarged view Enlarged view 図 顔形状モデル頂点とテクスチャ画像との対応付け ! 基礎実験 実験データ 本手法の有効性を確認するため,以下, 章に述べる実験データを用いてシミュ レーションを行った. 計算機は 78 社製グラフィックワークステーション(78 8. #" 98# & 9-6* &9 9'* 721: 8 3)を用いた.実装は全てソフトウェアに よって行い,ハードウェアの最適化等は行っていない. 入力動画像 台の家庭用ビデオカメラ(50& )を使用し,室内で一様な背景 および一般的な室内光のもとで 名の人物が喋っている動画像を取得した.動画像の 撮影は後述するテンプレート系列作成に用いた画像を取得した環境と同様の条件のも とで行った. ビデオカメラはディスプレイ上部に設置し,被験者がディスプレイを見ながら自由な 姿勢で喋っているところのバストアップからアップショットまでの動画像を撮影した. なお,動画像の フレーム目では,人物がカメラ正面を向くようにしている. 一定のフレーム間隔で,得られた動画像のコマ落としを行い, 画素の白黒 濃淡画像に書き出してから処理を行った.事前実験結果に基づき,フレームレートは フレーム/秒 とした.また,画像はいずれも 画素の 3 白黒濃淡画像 である. 離散テンプレート系列 次元スキャナ(32425 562 &7' )を用いて取得した 次元人物顔 データを用い, 次元テンプレート系列を作成した.動画像中顔の動作領域を考慮し, 上下方向 °,左右方向 °,傾斜方向 °に °おきに 顔方向を変化させた 顔画像を取得し, の 次元離散テンプレート系列を用いた.画像はいずれも (画素)の 3 白黒濃淡画像とした. 次元顔形状モデル 個の特徴点, 個の三角形ポリゴンから成る 次元顔形状モデルを作成して使 用した(図 ).顎や目領域など曲線の多い部分は特徴点の数を多く額や頬など比較 的平坦な部分は特徴点の数を少なく配置し,なるべく少ない作業で自然な顔画像を再 現できるようにした.また,顎の動きをある程度許容するため,口の付近には頂点を 多く配置した. 図 次元顔形状モデル ! 結果・考察 再構築結果の例を図 ∼図 に示す. これらの結果より,顔形状は現実のものとはやや異なるものの,入力画像の特徴を保 持し,従来アプローチよりも実際の人物顔に近い顔画像の 次元再構築が確認された. 図 と図 とを比較することにより,口の開閉が,図 と図 とを比較す ることにより目の開閉がテクスチャ変化によって再現されていることがわかる. また,カメラ入力画像を直接テクスチャとして利用しているため,肌の質感変化(陰 影など)や皺の発生といった微妙なディテールなどもそのまま反映されており,リア リティ向上に寄与していることが確認された. 顔角度が正面より大きく変化した場合はテクスチャ画像の歪みがが大きく,再構築 顔画像の品質に劣化が目立つが(図 ,図 参照),正面より °前後の場合 は主観的に満足な画像が再構築されることが確認されており,カメラを向いたとき正 面でないことが自覚できる角度変化範囲ならば対応可能であると考えられる . 入力動画像はテンプレート作成に用いた顔データ取得時と類似した条件のもとで撮 影を行われたが,条件が大きく異なるような環境で撮影した動画像を入力とした場合 の対応についても検討する必要がある. なお,この手法は 章にて前述したグラフィックワークステーション 78 8! 上 で フレームあたり約 秒の処理時間を要しているが,ハードウェア高速化やアルゴ リズム改良などにより高速処理が期待できる. まとめ 本章では,カメラ入力画像を直接使用し, 次元顔モデル表面上のテクスチャを適切 に張り替えていくことにより,自然な人物顔表情を 次元再構築する手法を提案した. ! 入力画像 3! 再構築画像 図 次元再構築結果 ! ! 入力画像 3! 再構築結果 図 次元再構築結果 ! ! 入力画像 3! 再構築結果 図 次元再構築結果 ! ! 入力画像 3! 再構築結果 図 次元再構築結果 ! ! 入力画像 3! 再構築結果 図 次元再構築結果 ! カメラ入力動画像フレーム中より人物顔領域を抽出し,正規化処理を施した後, 章 に述べた方法により, 次元顔角度の計測を行った.また,このとき得られた位置・顔 角度パラメータをもとに入力動画像フレームを補正し,擬似正面画像を作成した.最 後に,この擬似正面画像を使用し,予め構築しておいたパーソナル 次元顔モデル上 のテクスチャを連続的に張り替えていくことにより,自然な表情変化の再現を行った. 一般的なビデオカメラおよびワークステーションを用いて本手法を実装し,複雑な パラメータ抽出処理を要せず,目や口の開閉や,皺,肌の質感変化など,モデル形状 変形のみでは再構築が困難な表情変化を再現でき,従来の実画像を用いた人物顔画像 再構築アプローチよりも簡便な原理で自然な 次元人物顔画像の再構築が可能である ことを明らかにした. 現在は 台のカメラのみを入力系としているが,複数台のカメラ画像を入力とする ことによって,より多くのテクスチャ情報を得ることができ,再構築品質の向上が期 待できるため検討を行っていく必要がある.また,現在カメラ入力された画像の特徴 をそのまま使用しているが,入力画像取得時の照明条件の影響を考慮に入れた顔画像 再構築についても検討を行っていく必要がある. 第章 顔面筋動作に基づく人物顔表情 変化の再構築 はじめに モデルベース符号化 の考え方に基づいたアプローチでは,参加者の顔を模 した 次元顔形状モデルを ! に従った幾何学的 な表情変計則に基づいて形状変形することにより,人物顔表情変化に応じ, 次元顔形 状モデルの変形が行われる. は「眉の内側を上げる」, 「口の両端を下げる」といった主要な顔部品動作を 個の " "! を使用することにより顔表情変化を定性的に記述するためのフ レームワークであり,定量的にあらわしているものではない.特に,ある表情から異 なる表情への遷移や,まばたき,発話のときの口形状変化といった微妙な表情変化の 再現は困難である. 顔モデルの変形則をアドホックに決めるアプローチも試みられているが,自然な表 情変形を実現するためには 次元スキャナのような特殊機材を用いたり,試行錯誤に よって変形則を決めたりする必要がある.また,このアプローチでは顔面筋の解剖学 的な動作を反映させるものが多いが ,データ量が膨大になる上,顔面筋動作を 正確に計測することが事実上不可能であるため,各種パラメータの調整が煩雑になる などの問題点がある. 本章では人物顔面筋動作に基づいた表情認識用法 を応用することにより, 次元 顔形状モデルを顔構成要素動作を手がかりに定量的に変形できるようにする手法を提 案する.これにより,認識系と再構築系を一体化し,従来の のように定性的 な顔表情変形則を用いたアプローチでは実現困難であった,人物顔表情変化に応じた 自然な 次元人物顔画像の生成を,特殊機材や手間を用いず,少ないデータ量で実現 する. まず,顔面筋動作に基づく表情認識用モデル を拡張し, 次元パーソナル顔形状 モデルの形状を,主要顔面筋動作の伸縮に基づいて予め変形可能にしておく.入力動 画像フレーム中の人物顔特徴をブロックマッチングに基づく手法を用いて追跡した後, 擬似正面顔画像を生成する.擬似正面顔画像上に 次元顔モデル頂点を投影し,主要 顔構成要素(目,眉,唇,顎)の変形を手がかりに, 次元顔モデルを構成する各頂点 を最適位置に移動し,カメラ入力顔表情の再現を行う. また, 章にて述べたアプローチの原理を導入し,入力動画像フレームを直接用いて このモデル上のテクスチャを張り替えられるようにすることにより, 次元無表情顔モ デルの形状変形のみでは再現困難なディテールを再現し, 次元再構築顔画像の品質を 向上させる. 本手法を一般的な # および 5 カメラを用いて実装し,動画像の入力から再構築 画像の表示までを特殊な機材やデータを要せず,高速かつ高精度に行えるようにする. また,再構築結果画像を実写画像と比較する評価実験を行い,手法の有効性について 主観的・客観的に明らかにする. 最後に,本手法を拡張し, 台のネットワーク接続された # 間で顔データの伝送お よび再構築を行うことができるようにし,その有効性について明らかにする. 提案手法 提案手法は以下のように構成される(図 ). 人物の無表情正面・側面顔画像を元に, 次元顔モデルを構築する.また,こ のモデルを構成する各頂点は主要顔面筋動作に基づき,定量的に移動されるよ うにする.初期状態では,前述の無表情正面顔画像をモデル表面上にテクスチャ マッピングされている.なお,この作業はリアルタイム性が要求されないため, オフラインで行う. 人物正面に設置された 台のカメラを用いてカラー動画像を取得する.動画 像の フレーム目では,人物の顔は無表情かつ正面を向いており,顔位置は既知 であるものとする. フレーム目以降では,入力フレーム中の人物顔位置・角度 の変化による影響を補正するため,人物顔特徴の位置を追跡し,この結果を元に フレームに対し正規化処理を施す. で得られた 次元顔モデル上の各頂点を移動し, で得られた 正規化入力フレーム中の顔部品位置を手がかりに最適位置を決定する.これによ り,モデル形状の変形が行われる. 章に述べたアプローチを導入し, で得られた正規化入力フレームを 用いて, の処理によって変形されたモデル上のテクスチャ全体を張り替 える.これにより,再構築画像の品質を向上させる. から の処理は入力動画像の最終フレームまで繰り返される.以下 では各要素技術の詳細について述べる. 次元顔モデルの構築 標準的なモデルを被験者の顔に整合させることにより,パーソナルな顔形状モデル を構築する. 図 提案手法の概要 y y Profile Image z Frontal Image x Step 1 3D Face Model Feature Tracking and Modification Step 2 3D Face Shape Model (deformable according to facial muscle movement) Texture mapping Input Frames 3D Model Construction time Step 3 Displacement of vertices and determination of its best-fit positions Modified Input Frames time Deformed 3D Face Model time Step 4 Reconstructed Images time Texture remapping 基本顔形状モデルとしては,少ないポリゴン数で人物顔形状を良好に模している #2; らによるモデル を採用し,これを編集した 頂点, ポリゴンから成るモデル を用いる(図 !). 正面・側面顔画像上に基本形状モデルを重ねて表示し,目,眉,鼻,口といった顔 構成要素の端点や顔の輪郭上の頂点 個をマウス操作によって移動し,入力された 顔に対話的に整合させ,マクロな形状を構築する.その他の頂点は &'& ' ,! による離散データ補間手法 に基づいて移動し,全体的なモデル形状を滑 らかに変形させる( 章参照).額や頬上の頂点位置は正面および側面画像のみから では理解しにくいため,これらの部位に位置する頂点は 個づつ選択・移動し,生成 された顔モデルを異なる方向から表示した際に違和感が少なくなるように調整を行う. モデル構築に使用した無表情正面顔画像を 次元顔形状モデルの表面上にテクスチャ マッピングし,基本となる 次元人物顔モデルを構築する(図 3!). ! 次元顔形状モデル 3! 次元顔モデル(初期状態) 図 次元顔モデル 顔形状の変形 文献 で提案されている表情認識用の顔面筋モデルは,個々の顔構成要素(眉・目・ 口)の動作を追跡し,その動作に基づいて顔面筋の収縮を検出することにより,表情 認識を行うことを目的としたものである.顔面筋の収縮度を表すパラメータによって 変形が行われるため,実際の顔構成要素の変形規則と一致した動きが実現可能となる. 簡単のため,耳や鼻の動作を制御する筋肉は考慮せず,同じような位置や収縮方向 の筋肉は一つにまとめて扱われる.適用される顔面筋および特徴点の配置を図 に 示す. 図 に示すように, 次元顔面筋モデルは人物の無表情正面顔上に 個の特徴点 を配置し,隣接した特徴点同士をワイヤで繋ぐことにより構成される.特徴点のうち, 図 主要な顔面筋と顔特徴点の配置 x y P6 P3 P4 P9 P1 P5 P7 P4 P11 P12 P8 P10 :Control point :Spring :Static point 図 顔面筋モデルの構造 : Control point at its original position : Control point : Static point (destination) : Spring Ci−1 Vi si ||Vi || ki Ci Oi−1 Ci+1 Oi Oi+1 図 スプリングの動作 その位置によってこのモデルの形状を変化させる点は制御点(図 では〇で示されて いる),それ以外の点は固定点(図 では□で示されている)と定義される. 図 に示すように,目頭,目尻,目上部,目下部,口角,耳の横,顎の上に位置す る固定点をそれぞれ , , , , , , と定義する. 眼窩内側・上部・下部,目の下、頬の位置にも固定点が配置されているが,顔に明確 なエッジが存在しないため,位置を把握するのが困難である.そのため,他の固定点 の座標を基に次のように座標を定義する. 眼窩内側 眼窩上部 眼窩下部 目の下 頬 ! ) ! ) ! ! ) ! 制御点と固定点を繋いでいるワイヤの一部はスプリングと呼ばれ(図 では点線で 示されている),その伸縮によって顔面筋動作があらわされる.図 に示すように, 制御点,および無表情時の制御点の位置をそれぞれ 0 と とし, から, について あらかじめ一つ定められている固定点に向かうベクトルを & とする.向かうベクトル 1 を & とするスプリングの伸縮率 " ! は & $ としたときの 0 の大きさで あらわす.また,各スプリングの可動範囲を限定し人物の実際の顔面筋動作に近づけ るため,弾性度 を導入する. 章にて後述するように,隣接した制御点間を曲線 で補間することにより,各顔部品の輪郭を近似する. これにより,顔面筋の起始・停止に基づき,各特徴点位置が相対的に決まり,異なる 人物に対しても特徴点の位置を一意に決めることができる.また,顔モデルは個人の 顔骨格に応じた形状となるが,顔面筋の収縮度は比率であらわされる.そのため,顔 面筋の収縮度は顔の大きさや形状に影響されず,異なる人物顔においても,同じよう な顔表情変化を行えば収縮度は等しくなる. 最終的には,顔構成要素輪郭の最適位置を与えた各スプリングの伸縮率をもとに,入 力顔表情の属する基本表情カテゴリが決定される. 本手法では,この 次元顔面筋モデルが顔面筋伸縮則に基づいて入力画像中の主要 顔構成要素の輪郭位置を追跡可能であるという点に着目し,単純に表情カテゴリ認識 結果に対応する 次元基本表情顔画像を再生するのではなく,顔面筋モデルの変計則 を 次元拡張することにより 章に述べた 次元顔形状モデルを構成する各頂点が顔 面筋伸縮動作に基づいて移動されるようにする. 各特徴点の位置は顔部品や顔輪郭の位置に基づいて決定されるため, 章にて述べ た形状モデルの構築を行う際に自動的に導き出され,前述の 次元顔形状モデルの表 面上に配置される.各スプリングの伸縮によって目・眉・唇・顔輪郭上に位置する 次 元人物顔形状モデル頂点の 次元座標を変化させ,その他の頂点は各固定点・制御点 からの距離に応じて重み付けして移動することにより顔形状全体の自然な変形を実現 する. 擬似正面画像の作成 入力動画像フレーム中より,人物顔において抽出しやすく,表情変化が生じても変 動が少ない特徴の位置をブロックマッチングにより追跡し,これらの位置を元に擬似 的な正面顔画像を生成する. 画像中より顔構成要素を検出するアプローチとしてはテンプレートマッチングに基 づいたもの や,色・濃淡情報を手がかりとしたもの などがある.しか し,前者の場合は事前にテンプレート画像を用意しておく必要がある上,顔部品の変 形に対してロバストだとは言い難く,後者の場合は事前に動画像取得環境における色 情報や照明条件などに関する知識が必要になる.また,検出された各顔部品候補領域 を各顔構成要素に対応付けるためには,顔部品の大きさや形状,顔部品の幾何学的な 配置則などを計算機に学習させるなどの工夫が必要になる . 顔構成要素初期位置の誤検出は後の処理に大きな影響を与えるため,できる限り正 確に捉える必要がある.また,前述のアプローチのように顔の色,動作,形状などに 関するデータを事前に収集したり,前提条件を設けたりする必要がなく,簡便に実装 可能な方式が望まれる.そのため,人物顔において抽出しやすく,表情変化が生じて も変動が少ない特徴位置をを処理実行に先がけて指定し,ブロックマッチングにより 追跡する方法 を採る. 章にて述べた顔形状モデル変形法の基となっている文献 でも,この方法を用いて人物顔追跡を行っているため,人物顔構成要素の輪郭位置 追跡を行う上で有効であると考えられる. 文献 では動画像 フレーム目において,左右の目尻目頭の 点を中心としたテン プレートを切り出しており,以降のフレームでは前フレームにおける計測位置を中心 とし,このテンプレートよりも充分にサイズが大きいウィンドウ内で各特徴の最適位 置を求めている.しかし,この 点を追跡対象とした場合,顔の前後動作などに対応で きない上,目尻は顔方向変化や髪型などによって追跡できなくなるおそれがあるため, 追跡する特徴は両目頭および鼻の下の 点とした.また,照明変動や人物顔部品の変 形などによる影響を低減するため,各フレームごとにテンプレート画像の更新を行う. フレーム目では,画像中の人物はカメラ正面を向いていると仮定し,追跡する特徴 の初期位置 !, !, ! を指定する. フレーム目( )における左右の目頭および鼻の下中央の座標位置をそれぞ れ !, !, ! とし(以下では同様にして, フレーム目にお ける座標位置 ! を ! とあらわす),これらの座標を中心とした / / 画 素サイズのテンプレート画像を作成する.( )フレーム目では,図 に示すよう に, ! の位置を中心とした 画素サイズ / ! の探索用矩形ウィン ドウを設定し,このウィンドウ内の全ての位置でテンプレート画像を重ね合わせる. フレーム目の座標 ! における輝度値を ! とあらわすとき,式 ! に示す 2 $ ! をそれぞれ最小にする位置座標を ! $ ! とする. 2 $ ) ) + ! ) ) + ! ! !, !, ! が, フレーム目における左目頭,右目頭,鼻の下中央の 位置 !, !, ! とそれぞれ一致するように,フレーム全体に対してア フィン変換を施す(図 参照).以下では,このようにして得られた画像を擬似正面 画像と呼ぶ. なお,このアプローチを用いた場合,計測誤差が累積していくおそれがあるため,現 フレームと過去 フレームにおける計測結果の平均値を求め,現フレームにおける最 適位置とする.図 に示すシミュレーション実験結果より, つの特徴の,追跡結果 の誤差累積による影響が低減されていることがわかる.図中において,平均値算出処 理を施したとき,および施さなかったときの各追跡特徴の計測誤差(正しい座標位置 と計測位置との +, 距離)がそれぞれ実線,破線で示されている. ½ 現時点では追跡する顔特徴の抽出は自動化されていない.しかし,ひとたびパーソナル 次元顔形 状モデルを構築しておけば,処理実行前に指定する必要のある特徴はわずか 個であるため,システム の実用化に向け大きな問題にはならないと考えられる xt−1 k yt−1 k template image M ytk M xtk xtk + i ytk +j search window N N Frame t-1 Frame t 図 連続フレーム間のブロックマッチング (xt2 , yt2 ) (x11 , y11 ) Affine Transform (x12 , y12 ) (xt1 , yt1 ) (xt3 , yt3 ) (x13 , y13 ) Input Frame Modified Input Frame 図 正規化入力フレームの作成 Error (Euclidean distance) 10 Feature1 (with mean calculation) Feature1 (without mean calculation) Feature2 (with mean calculation) Feature2 (without mean calculation) Feature3 (with mean calculation) Feature3 (without mean calculation) 8 6 4 2 0 0 100 200 300 400 Time (Frames) 500 図 計測結果平均化の影響 600 b V0u C1b C2b Ob2 Ob0 Ob1 C1e C2e (Oe2 ) Oe3 C0b C3e b V0w V1e Oe1 V3e b V0d C0e (Oe0 ) 図 目・眉上の特徴点とスプリングの構造 : Face structure model vertex Initial eye line Estimated eye line :Face structure model vertex :displacement vector ! 3! 324 図 目・眉輪郭上の形状モデル頂点の移動 モデル形状の変形 ! スプリング伸縮に伴うモデル頂点の移動 目と眉,顎と唇における,特徴点とスプリングの構造を図 ,図 にそれぞれ示 す.また,唇内側・外側における特徴点の配置を図 に示す.各図に於いて,〇が 制御点 0 !,●が無表情時の制御点 !,□が に応じて決まる固定点,細い矢印が からこの固定点に向かうベクトル & !,破線の円がこのベクトルが向かっている固定 点,太い矢印がスプリング,破線が各顔部品のライン,実線が初期状態における各顔部 品のラインを示している. 目 次元顔面筋モデル において,目輪郭上制御点の座標は 0 $ !,無表 情時の 0 $ ! の座標は $ ! と定義される. , から眼窩 部の上下に位置する固定点へそれぞれ向かうベクトルは & ,& と定義され,& ,& 方向のスプリング伸縮率はそれぞれ " ," と定義される.0 $ ! は式 ! であらわされ,目ラインは 0 0 0 および 0 0 0 の 点を通る 次曲線で近似され る(但し, $ $ )(図 ). 0 $ ) & $ ! $ ! ! この式は 平面上での動作を想定したものであるが,先にも述べたように,本手 法では 次元的な形状モデル変形を想定している.そのため,0 $ !, $ ! を 次元座標,& ,& を 次元ベクトルとし, および 平面上で目 ラインを近似することにより,上記の近似方法を 次元拡張する. 目ラインを構成する 特徴点のうち つは横からみたときに隠れてしまうため, 座標上で,目ラインを構成する 次曲線を描画する際,次のようにして 座標の変化を 求める.図 に示すように, 座標において, 軸に対して垂直で,0 + $ ! を , 通る直線に関する 0 $ ! の対称点 0 を考える.0 0 0 ,0 0 0 ,0 0 0 0 0 0 の 点をそれぞれ通る 本の 次曲線を用いて特徴点間を補間し,目輪郭上 に位置する各形状モデル頂点の 座標値を元に, 座標値を算出する. 図 ! に示すように,目輪郭線上に位置する各形状モデル頂点(図 ! では ■で示されている)は目ライン(図 ! では点線で示されている)の上に移動する. 各形状モデル頂点の 座標は,0 の 座標と 0 の 座標からの距離の比率が, の 座標と の 座標からの距離の比率と等しくなるように決める.この値を元に, 平面上の 次曲線を用いて 座標を, 平面上の 次曲線を用いて 座標をそれぞれ 導き出す. ¼ ¼ ¼ ¼ ¼ z C ej y Cie Oei j 図 座標値の補間方法:目 眉 次元顔面筋モデル において,眉上の制御点座標は 0 ,0 ,0 ,無表情時の 0 , 0 ,0 の座標は , , と定義される. から額,鼻根,目の端と鼻の中間に 位置する固定点へ向かうベクトルはそれぞれ & ,& ,& と定義される.& ,& 方向のスプリング伸縮率はそれぞれ " ," であり,特に " - のとき,& の方 向,および & の方向に眉が下がる.0 $ ! は式 !∼! であらわさ れ,眉ラインは 0 0 0 の 点を通る 次曲線によって近似される(但し, $ , $ , $ ) (図 ). 0 ) & ) & " $ & ) & " 0 0 " " $ ) & ) & " " $ ) & ) & ! - ! ! ! ! $ !, $ ! を 次元座標,& ,& ,& を 次元ベクトルと し, および 平面上で眉ラインを近似することにより,上記の近似方法を 次元拡 張する. 図 に示すように,このラインは眉の中心を通る.そのため,図 3! に示すよ うに, フレーム目において眉上弦,および下弦輪郭上に位置する各形状モデル頂点 (図 3! 中では■で示されている)からこの眉ライン上に垂線を下ろし,下ろした 足の座標の移動に応じて同じ方向に,同じ移動量分だけ,形状モデル頂点が移動され るようにする. 0 m V1u V3m C2m C3m C1m Om 1 m V1w m Om 3 O2 C0m Om 0 m V0w Om 4 Om 5 j O1 j (C1 ) m V0u V2m j O2 j C5m m V1d j (C2 ) C4m m V0d O0 V5m j C0 V4m 図 顎・唇上の特徴点とスプリングの構造 顎 次元顔面筋モデル において,顎上制御点の座標は 0 ,無表情時の 0 の座標 は と定義され(図 ),0 の位置は顎先端画像のテンプレートマッチングによっ て決定される.しかし,顎は目などの顔構成要素のように明確な特徴をもたず,正確 な位置を把握しにくい.そのため,制御点の座標 0 ,0 ,無表情時の 0 ,0 の座標 , を追加し(図 ),顎ラインを曲線近似することにより,最適位置を探索す る.0 ,0 ,0 を 次元座標とし,この 点を通る 次曲線を用いて顎ラインを および 座標上で描画し,形状モデル頂点をライン上に移動する. 軸に対して垂直で,0 を通る直線 0 $ ! の対称点 0 を考える.0 0 0 , 0 0 0 の 点をそれぞれ通る 本の 次曲線を用いて特徴点間を補間し, 座標値を 算出する. 顎ラインは顔面筋によって制御されていないため,0 の 座標を変化させることに よってその位置を決める.後述するように,0 の座標位置は唇上の頂点移動を算出す る際に必要となるため,この位置は唇上の頂点移動の前に決定する. ¼ ¼ ¼ 唇(外側) 次元顔面筋モデル において,唇外側輪郭上の特徴点座標は 0 $ !, 無表情時の 0 $ ! の座標は $ ! と定義される. , から 左右の頬骨の突起部分に相当する固定点へ向かうベクトルはそれぞれ & ,& ,顎の先 C mj + C mj+1 z y 2 C mj C mj j Cimj Cim 図 座標値の補間:唇 端に位置する左右の固定点へ向かうベクトルはそれぞれ & ,& ,左右の頬上の固定点 に向かうベクトルはそれぞれ & ,& と定義される.また, , から左右の眼瞼 の下側に位置する固定点へ向かうベクトルはそれぞれ & ,& , , から顎の先 端に位置する左右の固定点へ向かうベクトルはそれぞれ & ,& と定義される.また, & ,& ,& ,& ,& ,& ,& ,& ,& ,& 方向のスプリング伸縮率はそれ ぞれ " ! ," ," ," ," ," ," ," ," ," と定義される.0 $ は式 ! であらわされ,唇外側のラインは 0 0 0 0 ,および 0 0 0 0 の 点をそれぞれ通る 次スプライン曲線によって近似される(但し, $ $ , $ $ , $ $ , $ $ $ $ )(図 ). 0 $ ) & ) & ) 0 " . $ ! & ) & ) 0 ) ) & & " ) 0 - . $ ! $ ! $ ! ! $ !, $ ! は 次元座標,& ,& ,& ,& ,& , & ,& ,& ,& ,& は 次元ベクトルとし, および 平面上で唇外側のライ ンを近似することにより,上記の近似方法を 次元拡張する. 唇の外側輪郭上に位置する各形状モデル頂点は,近似されたライン上に移動する. 座標上で 次スプラインを描画できない恐れがあるため,唇外側のライン上の形状 モデル頂点の 座標を求めるためには図 に示すように, 軸に対して垂直で,0 と 0 + $ ! の中点を通る直線に関する 0 $ ! の対称点 0 を考える. 0 0 0 0 ,0 0 0 0 0 0 0 0 ,0 0 0 0 の 点をそれぞれ通る 本の 次スプライン曲線を用いて特徴点間を補間する. また,唇輪郭上の点の 座標値は口角の 方向の移動によって影響され,上記によっ 0 ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¼ て得られた 座標をそのまま用いた場合,横から再構築結果を表示したときに唇を突 き出したり,横に引いたりする動作が正しく再現されない.そのため,事前実験結果 を元に,0 および 0 の 座標値には 0 の 方向の移動量,0 および 0 の 座 標値には 0 の 方向の移動量をそれぞれ加算することにより補正を行う. 唇(内側) 文献 の顔面筋モデルでは唇内側ラインの動作は考慮されていないが,筆者らが 想定しているアプリケーションでは顔表情変化や発話に伴う 次元人物顔画像の再構 築を目的としているため,このラインの変形についても考慮する必要がある.そのた め,唇の内側ラインにも特徴点を配置し,前述の唇外側ライン上の変形を手がかりに 追跡を行う.唇の内側輪郭上に制御点の 次元座標 0 $ !,無表情時の 0 ! を配置する. $ ! の 次元座標 $ 0 $ !, $ ! は 0 $ !, $ ! と同じ 座標値を持ち, 方向への変化が同じように行われるものとする. 唇内側の輪郭は顔面筋スプリングによって制御されていないため,0 および 0 の 座標値は 0 と 0 の 座標値の間,0 および 0 の 座標値は 0 と 0 の 座 標値の間で変化させ,0 の 座標値は 0 の 座標値,0 の 座標値は 0 の 座 標値より,それぞれ小さくなるように最適位置を探索する. 唇内側のラインは 0 0 0 0 および 0 0 0 0 の 点を通る 次スプライン曲 線を および 平面上で描画することにより近似される. + $ ! の中点を通る直線に関する 0 $ 軸に対して垂直で 0 と 0 0 ,0 0 0 0 0 0 0 0 , ! の対称点 0 とする.0 0 0 0 0 0 0 の 点をそれぞれ通る 本の 次スプライン曲線を用いて特徴点間を 補間する.唇輪郭上に位置する各形状モデル頂点の 座標値を元に, 座標値を算出 する. 外側の輪郭と同じように,唇内側の輪郭上に位置する各形状モデル頂点をライン上 に移動する. ! ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¼ 最適位置の決定 入力動画像の フレーム目では,人物の顔は無表情であると仮定しているため,全 ての特徴点,および形状モデル頂点が初期位置にあり,全てのスプリング収縮度 " の 値は とする. フレーム目以降では各パラメータの値を一定の範囲で変化させ, 章に述べたルー ルに基づいて各モデル頂点の位置を移動した後,各モデル頂点の 座標に対応する, 正規化入力フレーム上の画素における $# 表色系の各値を手がかりに最適位置を決 定する.以下では, フレーム目における,各顔部品輪郭上のモデル頂点の 座標を ! !! !. ! は対象としている顔部品(目,眉,顎,唇内側,唇外側)の Om 7 Om 3 Om 2 C3m Om 6 Om 1 Om 5 C0m C1m C9m Om 7 Om 4 C6m C7m Om 0 Om 9 C2m C8m C4m C5m ! 無表情時特徴点 ( ) 3! 特徴点 (0 ) 図 唇(内側・外側)上の特徴点 輪郭上に位置する形状モデル頂点の総数!,この座標に対応する画素の $ # 値をそ れぞれ ! !!,$ ! !!,# ! !!, $ # 値のエッジ強度をそれぞ れ < ! !!,<$ ! !!,<# ! !! とあらわす.また,以下ではス プリング伸縮によって ! !! が移動される座標位置を ! !! とあらわす. ¼ ¼ 目・眉・顎 文献 では, ! フレーム目において,目・眉ライン上に位置する画素の輝度値 を手がかりに最適位置を決定しているが,この計算方法は顔方向変化や照明変動の影 響を受けやすく,入力動画像取得条件に制約を設ける必要があると考えられる.目や 眉の輪郭は肌領域に対してエッジを有するため,この特徴を利用することにより認識 精度を向上させる.また,処理簡略化のため,顔構成要素上に位置する形状モデル頂 点座標の 座標に対応する擬似正面画像上の画素における 成分のみを用いてエッ ジ強度を算出する. ! フレーム目において式 ! に示す 2 が最小になったとき,輪郭上に位置す る各形状モデル頂点が最適位置に移動されたとみなす. 2 $ < ! !! ¼ ¼ < ! !! ! また,次フレーム以降の処理で用いるため,このときの 2 を与えた各 " の値も保存 しておく. 唇(外側,内側) 目や眉のときのようにエッジ強度のみを用いた場合,唇の輪郭が正しく得られない恐 れがあるため,図 に示すように唇輪郭線上の各形状モデル頂点に対応する画素(図 Outer lip t t Inner lip :(xtout (i), ytout (i)) :(x (i), y (i)) : (xtin (i), ytin (i)) 図 唇上の頂点変形 !!(図 中では●で示されている) ! !! の内側に位置する画素 ! !!(図 では破線の円で示されている),および外側に位置する画素 ! では○で示されている)を用いて精度を向上させる . ここでも,処理簡略化のため $# 成分を用いる.事前実験により 成分を用いる ときよりも $ 成分を利用したときの方が唇領域と肌領域の濃度差が明瞭に得られたた め,$ 成分を用いて精度を向上させる.なお,# 成分の使用は精度向上に大きく影響 しないと考えられたため,ここでは使用していない. 式 ! に示す 2 が最小になったとき,唇輪郭上に位置する各形状モデル頂点が最適 位置に移動されたとみなす. 2 $ <$ ! !! <$ ! !! ) ¼ ¼ !! $ ! !!! $ ! (内側輪郭上の頂点) ¼ ¼ ! !! $ ! !!) $ ! !! $ ! !!! (外側輪郭上の頂点) ¼ ¼ $ ¼ ¼ ! その他の頂点 近傍の特徴点からの距離に応じ,重み付けをして移動することにより,モデルの全 体的な形状が滑らかに変形されるようにする .図 に示すように,任意の形状 モデル頂点 * の最近傍 特徴点を $ ! とし,この 点を頂点とした三角形を 考える. から * を通り,対辺に下ろした足を $ ! とするとき,* の に ¼ 対する重み付け係数 3 $ 3 $ 1 ¼ * 3 3 ! を式 ! で求める. 1 ¼ 1 ¼ * 1 ¼ * 1 ¼ 1 ¼ ! , , の 次元移動ベクトルをそれぞれ %1 ,%1 ,%1 とするとき,* の 次元 移動ベクトル %1 は式 ! であらわされる. 1 % $ ! 1 3 % UP1 P1 P3 F UP2 P2 UF P2 P3 P1 UP3 図 その他の頂点の移動 テクスチャの張り替え 先にも述べたように, 次元無表情顔モデルを幾何学的に変形するだけでは,皺や肌 の質感変化といったディテールを再構築したり,目,歯,舌などといった,独特の質感 や形状をもつオブジェクトを正確に再現するのは困難である. そのため, 章にて述べたアプローチによりカメラ入力画像の持つ特徴をそのまま 次元的に反映させることができる点に着目し,その原理を応用することにより,カメ ラ入力画像を用いて 次元顔形状モデル表面上のテクスチャ張り替え処理を行えるよ うにする.これにより,さらなる再構築品質の向上を実現する. 入力動画像の ! フレーム目では, 章に述べた顔特徴トラッキング処理によっ て得られた,現在の擬似正面画像をテクスチャ画像とし, 次元顔モデルを構成する全 てのポリゴン表面上のテクスチャを張り替える. これは図 に示すように,ポリゴンの 頂点 ! $ ! が, 章 に述べた変形処理によって ! $ ! に移動されたとき, ! $ ! をスクリーン座標上に投影して得られた座標 ! $ ! と,テク スチャ画像上において ! $ ! に対応する座標位置 ! $ ! と を対応付けることにより実現される. 図 に示すように,目と口内部の領域には,目輪郭と唇内側輪郭上の各形状モデ ル頂点をそれぞれ頂点とするポリゴンを追加する.これらの表面にテクスチャ画像中 の目領域,口内領域がマッピングされるようにすることにより,見え方が擬似的に再 現されるようにしている. " 実験 実験データ 人物の 約 前方に 台の 万画素カラー 5 カメラを配置し, 代のアジ ア人男性 人の人物顔データ(動画像)を撮影した.なお,再構築結果を異なる方向 から表示した際,どの程度の品質で再現されているかを確認するため,今回は人物の 側面,斜めからも同種のカメラで同時に撮影を行った.撮影は一般的な室内光の元で 行われ,照明条件や背景には特別な制約は設けていない.画像フレームは 画 素のフルカラー &7' 画像である. 経験則に基づき, 章にて述べたブロックマッチング用パラメータの値は / $ * $ に設定した.また,0 の 座標は,前フレームにおける 座標位置の上下 画素の範囲で変化させた.文献 に記述されているパラメータを参考に,目・眉に 関連した各スプリングの " 値は前フレームの ,唇に関連した各スプリングの " 値 は前フレームの の範囲で変化させた. テストデータは下記のものを使用する. テストデータ 無表情から始まり,基本表情(喜び,怒り,驚き)をこの順に作り,母音(=あ>,= い>,=う>,=え>,=お>)をこの順に発音している動画像.人物は前方にあるカメラの ほぼ正面を向くようにしている. テストデータ 正面から始まり,正面 上方向,正面 下方向,正面 左方向,正面 右方向, と顔方向を徐々に変化させている動画像.被験者はなるべく表情を変化させないよう にしている. なお,実験は全て #" #, 8? 7-6* 主記憶 7'* ビデオメモリ 9' の # 上で行った " 評価方法 章に前述したテストデータ を入力とし,再構築された 次元顔画像を人物の前 方,側面および斜めから撮影された実写画像と同じ投影で出力し,両者の比較を行う. また,再構築結果はテクスチャの張り替えを行った場合と行わなかった場合の両方 の画像を用いる. Screen Texture image (Frontal Image) u X Y v (X1 , Y1 ) (u1 , v1 ) (u2 , v2 ) (X2 , Y2 ) (X3 , Y3 ) (u3 , v3 ) Enlarged view Enlarged view Initial state Screen Texture image (Modified Input Frame) X u Y (X2t , Y2t ) v (X1t , Y1t ) (ut2 , vt2 ) (ut1 , vt1 ) (X3t , Y3t ) (ut3 , vt3 ) Enlarged view Enlarged view Frame t 図 テクスチャの張り替え ! 3! ,: 図 口および目内部のポリゴン 表 主観評価基準 評価値 評価基準 全く差が無い わずかに差が有る 差が有る かなり差が有る 非常に差が有る 静止画像は各表情が最も明瞭に表出されたフレームを選択して用いる.アニメーショ ン画像は再構築結果画像を フレーム/秒 で繋ぎ合わせたものを使用し,実写動画 像と同じフレームレートでの比較を行えるようにする. 具体的には,以下に示す主観評価法と客観評価法の両方を用いる. 主観評価法 大学院生 名を被験者とし,表示系の左側に実写画像,右側に再構築画像を同時に 呈示する.各被験者は表 に示す 段階評価で再構築画像の再現性の採点を行う.な お,被験者に慣れてもらうためにアニメーション画像は 回呈示し, 回の評点の平均 値を採用する. 静止画像,アニメーション画像ともに,テクスチャの張り替えを行ったときと,行 わなかったときの順番を入れ替えて呈示することにより,呈示順によっていずれかの 画像の評価が偏らないようにする.表示系は インチ型液晶カラーディスプレイであ り,視距離は約 である. 客観評価法 再構築結果画像を実写画像に重ね合わせ,人物顔領域における輝度値の平均 乗誤 差を求める.この値が小さくなるほど実写に近い顔画像が生成されたとみなす. ! 顔形状モデルの投影 3! フィッティング結果 図 モデル整合による顔角度の計測 また,対話をしている際,人物の顔が完全固定されていることは考えにくいため,人 物顔角度の上下左右の方向変化に対する自由度についても確認する. 章に前述し たテストデータ を入力としたときの再構築画像を異なる方向から表示し,主観評価 により,視覚的に満足な再構築結果が得られた限界のフレーム(以下では限界フレー ムと呼ぶ)を選択する. このフレーム上に 章に述べた処理で得られた 次元顔形状モデルを投影し(図 !),手作業で前述の 次元顔形状モデルの向きと角度を変化させることにより, フレーム中の人物顔に整合させ(図 3!),角度計測を行う. " 結果・考察 静止画像の主観評価結果を図 ∼図 に,客観評価結果を図 ∼図 にそ れぞれ示す.また,アニメーション画像の主観評価結果を図 ∼図 に,客観評 価結果を図 ∼図 にそれぞれ示す. これらの図において,実線がテクスチャを張り替えた時,破線が張り替えなかった時の 各人物顔データ毎の値を示しており,それぞれ>4: 2 11>,>4:, 2 11> と表示している 横軸は基本表情を示しており,縦軸は主観評価結果の図では被験者 人の平均評定値,客観評価の図では輝度の平均 乗誤差を示している.図 ∼図 における -11,2,,212,,8,",+,@ は人物 + が生成した喜び, 怒り,驚き,=あ>,=い>,=う>,=え>,=お> の各表情( 章参照)にそれぞれ対応 しており,図 ∼図 における 2* 5* #2A は正面,斜め,横方向に それぞれ対応している. また,図 ∼図 に人物データ を用いたときの処理結果画像を示す. これらの結果から,静止画像,アニメーション画像ともに,入力された人物顔構成 要素の動作が良好に追跡され,定量的な表情変化の再現が行われたことがわかる. 目や唇といったターゲットの変形も良好に再構築され,母音発声時の口形状変化の ような微妙な変形も,良好に行われていることが確認された(図 ∼図 ).ま た,アニメーション画像より,ある表情からある表情への遷移状態がスムーズに再現 され,全体的な顔形状の変形も違和感なく行われることについても確認している. 再構築顔画像の呈示方向が正面から離れるにつれ,テクスチャを貼り替えた時と貼 り替えなかった時の差が小さくなっているものの,モデル表面上のテクスチャを貼り 換えることにより,形状変形のみでは再現困難なディテールが再構築されており,よ り実写画像に近い再構築が行われたことがわかる.これは,> 喜び> の表情における鼻 唇溝(図 )や,=怒り> の表情における眉間の縦皺(図 ),=驚き> の表情にお ける額の横皺(図 )の部分において,特に顕著に感じられる.また,図 ! の 中央と右側の画像を比較すると,表情表出に伴う肌の質感の変化や,目や眉の細かい 動作,唇輪郭の複雑な変形などもより自然に再構築されていることがわかる. 歯や舌の 次元形状は厳密に再構築を行っていないものの,口内領域の見え方を再 現することにより,口を空ける動作を伴う表情(例えば図 )におけるリアリティ は顕著に向上している.しかし,実写画像と比較したとき,表示方向が正面から遠ざ かるにつれて,違和感が大きくなっているため,歯や舌といったオブジェクト形状の モデリングや認識方法について検討を行っていく必要がある. 表 に限界フレームにおける顔角度計測結果を示す.また,図 に人物 の限 界フレーム(上下左右)を示す. 全ての人物顔データについて,カメラを向いたとき正面でないことが自覚できる角 度変化範囲である上下左右 °以内の範囲 で,視覚的に満足な画像の再構築が達 成されており,参加者がカメラ正面を向くようにしていることを前提としているよう な通信システムには応用可能であると考えられる.現在,固定カメラ 台のみを入力系 表 限界フレームにおける顔角度 人物顔データ ' 5 + 上方向 Æ Æ Æ Æ Æ 下方向 Æ Æ Æ Æ Æ 左方向 Æ Æ Æ Æ Æ 右方向 Æ Æ Æ Æ Æ としているため,顔角度の変化が大きいときに得られる情報量には限界があるが,顔 上にマーカ等を貼り付けたりする必要は無く,身体的拘束の少ない顔情報入力が実現 されていると考えられる. 章に示したデータおよび # を用いたとき,動画像入力から再構築結果の生成・ 表示までが平均 フレーム/秒 の速度で行われた.現在はプログラム処理のみで 実装が行われているが,ハードウェア最適化やアルゴリズム改良などにより,リアル タイム処理が期待できる. 実験では被験者を 代のアジア人男性に限定したが,顔面筋を模したスプリン グは特定の人物の顔の大きさや形状に影響されず,異なる人物の顔においても同じよ うに顔表情を変化させれば,同じような収縮度になるため,異なる性別や年齢層の人 物顔データを用いた場合でも対応できると考えられる. 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 正面 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 3! 斜め 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 図 主観評価結果(静止画像) 5 MOS 4 3 2 1 without remapping with remapping 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 正面 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 3! 斜め 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ ' 図 主観評価結果(静止画像) 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 正面 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 3! 斜め 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 図 主観評価結果(静止画像) 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 3! 斜め 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 5 図 主観評価結果(静止画像) 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 正面 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" 3! 斜め 5 MOS 4 3 2 without remapping with remapping 1 0 HappyAngry Surprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ + 図 主観評価結果(静止画像) 2500 without remapping with remapping Mean square error 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" ! 正面 Mean square error 3000 without remapping with remapping 2500 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" 3! 斜め 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Happy AngrySurprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 図 客観評価結果(静止画像) 2500 without remapping with remapping Mean square error 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" ! 正面 Mean square error 3000 without remapping with remapping 2500 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" 3! 斜め 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Happy AngrySurprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ ' 図 客観評価結果(静止画像) 2500 without remapping with remapping Mean square error 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" ! 正面 Mean square error 3000 without remapping with remapping 2500 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" 3! 斜め 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Happy AngrySurprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 図 客観評価結果(静止画像) 2500 without remapping with remapping Mean square error 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" ! 正面 Mean square error 3000 without remapping with remapping 2500 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" 3! 斜め 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Happy AngrySurprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ 5 図 客観評価結果(静止画像) Mean square error 2500 without remapping with remapping 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" ! 正面 Mean square error 3000 without remapping with remapping 2500 2000 1500 1000 500 0 Happy AngrySurprise "A" "I" "U" Expression "E" "O" 3! 斜め 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Happy AngrySurprise "A" "I" Expression "U" "E" "O" ! 横 :人物データ + 図 客観評価結果(静止画像) 5 MOS 4 3 2 without remapping with remapping 1 0 Front Diagonal Direction Profile 図 主観評価結果(アニメーション) :人物データ 5 MOS 4 3 2 without remapping with remapping 1 0 Front Diagonal Direction Profile 図 主観評価結果(アニメーション) :人物データ ' 5 MOS 4 3 2 without remapping with remapping 1 0 Front Diagonal Direction Profile 図 主観評価結果(アニメーション) :人物データ 5 MOS 4 3 2 without remapping with remapping 1 0 Front Diagonal Direction Profile 図 主観評価結果(アニメーション) :人物データ 5 5 MOS 4 3 2 without remapping with remapping 1 0 Front Diagonal Direction Profile 図 主観評価結果(アニメーション) :人物データ + 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Front Diagonal Direction Profile 図 客観評価結果(アニメーション) :人物データ 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Front Diagonal Direction Profile 図 客観評価結果(アニメーション) :人物データ ' 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Front Diagonal Direction Profile 図 客観評価結果(アニメーション) :人物データ 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Front Diagonal Direction Profile 図 客観評価結果(アニメーション) :人物データ 5 12000 without remapping with remapping Mean square error 10000 8000 6000 4000 2000 0 Front Diagonal Direction Profile 図 客観評価結果(アニメーション) :人物データ + 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:喜び(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:怒り(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:驚き(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:> あ>(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:> い>(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:> う>(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:> え>(人物データ ) 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 正面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 3! 側面 入力画像 テクスチャ張り替え後 テクスチャ張り替え前 ! 斜め 図 実験結果:> お>(人物データ ) ! 上方向 3! 下方向 ! 左方向 ! 右方向 図 顔角度変化の限界 人物顔データ ! 図 システム構成 Input Frames time SENDER parameter measurement JPEG compression 3D Face Model image data parameter data Displacement of vertices and determination of its best-fit positions Modified Input Frames Facial Region Extraction Feature Tracking and Modification time vertices displacement RECEIVER JPEG decompression Deformed 3D Face Model time Texture remapping Reconstructed Images time システム化の検討 # 概要 ∼ 章にて前述した手法を拡張し,ネットワーク接続された 台の # 間で顔情 報の伝送・再構築を効率よく行うことができるようにする. また,カメラ入力された画像をそのままネットワーク上で転送する必要があるよう では効率面で問題があるため,ネットワーク上で伝送するデータ量がどの程度削減で きるかについて明らかにする. # システム構成 システムのハードウェア構成は 台の 0#B8# 接続された #(送信側 #,受信側 #)から成る. 章に述べた各モジュールを入力顔画像認識部( )と 次元顔画像再構築部 ( )とに分離し,前者を送信側 #,後者を受信側 # 上に実装する(図 参照). 認識部 入力されたカメラ画像中の顔特徴トラッキング,および正規化処理を行い,擬 似正面画像を作成する( 章参照).この画像を使用し,予めハードディスク上 に蓄えておいた 次元顔モデルの各頂点の最適位置を算出し( 章参照),こ のときの各パラメータの値を受信側 # に伝送する. また,帯域効率化のため,擬似正面画像中よりテクスチャ張り替え処理を行うの に必要な人物顔領域を切り出した後,圧縮を行ってから受信側 # に伝送する. 圧縮方式としては,C#+7 などのように,非可逆圧縮方式を採ることも 考えられるが,よりデータ量の削減が可能であり,圧縮・伸長処理が高速である ため,C#+7 ライブラリ を用いる. 再構築部 送信側 # から送られてきたパラメータデータと圧縮画像データを受信する. パラメータデータを基に予めハードディスク上に蓄えておいた 次元顔モデルの 各頂点を移動する( 章参照).圧縮画像データを伸長し,これを用いて 次 元顔モデル上のテクスチャを張り替える( 章参照). 最後に,再構築された 次元顔画像の表示を行う. # 通信の流れ 台の # 間で行われる通信の流れ,および使用プロトコルを図 に示す. まず,送信側 #+D5+&! から受信側 #&++8?+&! に 0#B8# コネクション 確立要求 +0' @DD+08@D &+E! が送られる.ソケット確立に成功すると,受 表 メッセージ一覧 メッセージ名 +0' @DD+08@D &+E +0' @DD+08@D &# 8F #&9+0+& 8D@ 9+ 897+ 8G+ 9+ 897+ 50 9+ 0+&98D0+ @DD+08@D &+E サイズ 3 3 3 3 可変 3 信側 # はコネクション確立応答を送信側 # に返す.送信側では確立応答を受け取る と,コネクションを承認する. 送信側 # で入力カメラ画像の正規化処理,およびパラメータ計測処理が行われると, 受信側 # にパラメータデータ,および画像データが 伝送される 8F #&9+0+& 8D@ 9+,897+ 50 9+!.なお,画像サイズは可変であるため,転送デー タサイズは決め打ちせず,画像データを伝送する前に画像データサイズ情報 897+ 8G+ 9+! を送っておくことにより,受信側で対応できるようにする. 通信が終了すると,送信側 # は受信側 # にコネクションの終了要求 0+&98 D0+ @DD+08@D &+! を送信する. 各プロトコルに従い,0#B8# 経由で授受されるメッセージとそのデータサイズを 表 に示す. SENDER Establish socket TCP/IP Connection RECEIVER ESTAB_CONNECTION_REQ ESTAB_CONNECTION_RSP Transmit Information OK/NG FACIAL_PARAMETERS_INFO_MES Muscle Contraction Parameters Image size Image data Terminate TCP/IP Connection IMAGE_SIZE_MES IMAGE_DATA_MES TERMINATE_CONNECTION_REQ 図 データ伝送の流れ # 実装 言語および @17F を使用し, 台の 0#B8# 接続された # (#" #, 7-6. &9 9'. ?79')上に実装を行った.送信側 # 上では平均 フ レームB秒,受信側 # 上では平均 フレームB秒 で処理が行われた.現在はプロ グラム処理のみで実装を行っているが,アルゴリズム改良やハードウェア最適化など により,リアルタイム処理が期待できると考えられる. # 圧縮品質に関する評価実験 画像データサイズは,C#+7 ライブラリで定義されている圧縮品質(C#+7 H,) とトレードオフの関係にあるため,圧縮品質値の設定が問題となる.そのため,主 観評価実験により,視覚的に満足な 次元人物顔画像の再構築が期待できる圧縮品質 を明らかにする. 章にて前述した動画像を入力とし,画像圧縮時,および画像非圧縮時の再構築 結果画像を異なる方向(正面,斜め,横)より呈示し,圧縮時の画像品質を評価する. 再構築結果は C#+7 H, を から の間で 刻みで変化させたものを用いる . 実験で使用する静止画像は,各表情が最も明瞭に表出されたフレームを選択して使用 し,アニメーション画像は再構築結果画像を フレームB秒 で繋ぎ合わせて作成する. 大学院生 名を被験者とし,表示系の左側に非圧縮画像使用時の再構築画像,右側 に圧縮画像使用時の再構築画像を同時に呈示する.各被験者は (非常に差が有る)か ら (全く差が無い)の間の 段階評価(表 )で右側に呈示された再構築画像の品 質を採点する .静止画像,アニメーション画像ともに,異なる圧縮率の画像データを 順番を入れ換えて呈示する. 表示系は インチ型液晶カラーディスプレイであり,視距離は約 とした. #! 結果・考察 図 にアニメーション画像の主観評価結果,図 ∼図 に静止画像の主観評 価結果をそれぞれ示す.また,図 ,図 ∼図 にアニメーション画像,およ び静止画像の 次元画像再構築に使用されたテクスチャ画像のデータサイズをそれぞ れ示す.図 ,図 における 5 + は 章に述べた各人物の顔デー タに,図 ∼図 ,図 ∼図 における :11,2,,212,,8,", +,@ は人物 + が生成した各表情(喜び,怒り,驚き,=あ>,=い>,=う>,=え>,= お>)に,それぞれ対応している. また,図 ∼図 ,図 ∼図 ,図 ∼図 に異なる C#+7 H, を 用いたときの再構築画像(人物顔データ 使用時)をそれぞれ正面,斜め,横方向か ¾ は から の間の値をとり,値が小さいほど圧縮率は大きい. 回呈示し, 回の評点の平均値を採用する. ¿ アニメーション画像は被験者に慣れてもらうために ら呈示した結果を示す. 図 ∼図 より,静止画像,アニメーション画像ともに,C#+7 H, の値 を下げていくと,ある値を境に 9@ 値の低下の度合いが大きくなるという傾向が見ら れた.この傾向は呈示方向を変えたり,異なる顔表情データを用いたときにもあらわ れた.なお,境目となっている C#+7 H, は から の間であると考えられる. これより,C#+7 H, は 付近に設定しておけば十分であると考えられ,一般的 に画像を圧縮する際に推奨されている C#+7 H, の値( 程度) を用いたとき より高い圧縮率で視覚的に満足な再構築結果が期待できる.C#+7 H, が のとき のテクスチャ画像データサイズは平均 ;' であり,C#+7 圧縮を行わなかったときの %程度に削減される(図 ,図 ∼図 参照). 圧縮を施した画像を用いた再構築結果は,非圧縮画像を用いた再構築結果と比較す ると赤み成分が失われており,唇や頬の部分の品質に低下が感じられる.しかし,表情 変化に伴う皺や,歯・舌などの形状などは圧縮率を下げても再現されており(図 ), 大きな違和感には繋がらなかったと考えられる. まとめ 本章では, 次元顔モデルを顔面筋動作に基づき定量的に変形し,自然な表情変化を 再構築する手法について述べた. 章に述べた課題 に対し, 次元顔モデルを顔面筋動作に基づき定量的に変形 し,自然な表情変化を再構築する手法について述べた. この手法では,カメラ入力された表情がどの基本表情カテゴリ(喜び,怒りなど)に 属するかを認識することを目的とした顔面筋モデル が顔面筋の伸縮則に基づき,カ メラ入力画像中の主要顔構成要素の輪郭位置を追跡可能である点に着目し,単純に表 情カテゴリを判定するのではなく,顔面筋モデルで定義されている顔面筋伸縮則に基 づき, 次元顔モデルの顔構成要素上に位置する各頂点を 次元的に移動できるように した.また,顔構成要素上に位置しない各頂点は顔面筋モデルを構成する各特徴点か らの距離に応じ,重み付けして移動させることにより, 次元顔モデルの全体的な形状 が自然に変形されるようにした.カメラ入力された動画像フレーム中より,ブロック マッチングに基づき,両目頭および鼻の下に位置する つの顔特徴を追跡し,追跡結 果をもとにカメラ画像にアフィン変換を施し,擬似正面画像を生成する.擬似正面画 像中の顔構成要素(目・眉・唇・顎)の最適位置が顔面筋の伸縮動作に基づいて高速・ 高精度に追跡され, 次元顔モデルの形状が適切に変形される.これにより,従来のモ デルベース符号化に基づくアプローチでは困難であった表情変化の定量的に表現され, 自然な表情再構築が実現される. また, 章に述べたアプローチの原理を導入し,入力画像を直接用いて変形後の形状 モデル上のテクスチャ張り替え処理を行うことにより,形状変形のみでは困難なディ テール部分が再現され, 次元顔画像の再構築品質を向上させることができることにつ いても明らかにした. 一般的な # および 5 カメラを用いて本手法を実装し, 代のアジア人男性 名の人物顔データを使用した評価実験を通し,提案手法の有効性を明らかにした. これにより,特殊機材や手間を要せず, のように定性的に表情変化を記述 したルールを用いた従来アプローチでは表現することが困難であった微妙な表情変化 や,ある表情から異なる表情への遷移の再現が可能になり,より自然でカメラ入力顔 画像に近いクオリティの再構築が実現される. 最後に,プログラム実装のみで画像入力から再構築結果の表示までがニア・リアルタ イム処理で実現可能であり,上下左右方向に参観者の顔角度が回転したときでも,人 物がカメラ正面を向いていることを自覚できる範囲において,視覚的に満足な顔画像 の再構築が行われることについても確認した. さらに, 台のネットワーク接続した # を用いて人物顔表情データの伝送および 次元顔画像再構築を行うことができるように上記の手法を拡張し,ソフトウェア実装 により,高速な処理が実現可能であることを確認した.また,主観評価実験を通し,テ クスチャ張り替え処理に用いる画像の C#+7 H, の値を下げていくと,ある値を境 に 次元再構築顔画像の 9@ 値の低下の度合いが大きくなり,C#+7 H, の値を 付近に設定しておけば視覚的に満足な 次元顔画像を再構築でき,画像非圧縮時の %程度のデータ量で処理が実現可能であることについても明らかにした. 現在, 台の固定カメラを使用し,ほぼ正面を向いている人物顔を含んだ画像を入 力とすることを想定しているが,より人物顔動作の自由度を高める必要がある.また, 現時点で眼球や口内領域といったターゲットの厳密な再構築は行っていないが,リア リティの高い 次元人物顔画像を再構築する上では重要な要素技術であるため,さら なる検討を加える必要がある. その他,システム化するにあたり既存のネットワーク技術,および画像圧縮方式を 用いたが,データ送信の効率化や異なる画像圧縮方式などに関してさらに検討を加え ていく必要がある. 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(アニメーション) 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 MOS 4 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> 喜び> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> 怒り> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> 驚き> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> あ> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 JPEG quality 40 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 JPEG quality 40 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> い> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 MOS 4 3.5 3 2.5 2 1.5 1 90 80 70 60 50 JPEG quality 40 30 20 ! 横 図 主観評価結果(静止画像)> う> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 ! 横 図 主観評価結果(静止画像)> え> 10 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 JPEG quality 40 30 20 10 ! 正面 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 40 JPEG quality 30 20 10 3! 斜め 5 Face Data A Face Data B Face Data C Face Data D Face Data E 4.5 4 MOS 3.5 3 2.5 2 1.5 1 90 80 70 60 50 JPEG quality 40 30 20 ! 横 図 主観評価結果(静止画像)> お> 10 40000 Face Data A Face Data B Face Data C Face Data D Face Data E 35000 Datasize [kB] 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 JPEG quality 40 30 20 10 図 データ量:アニメーション 45000 happy angry surprise A I U E O 40000 Datasize [kB] 35000 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 JPEG quality 40 30 20 10 図 データ量:静止画像(人物顔データ ) 40000 happy angry surprise A I U E O 35000 Datasize [kB] 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 JPEG quality 40 30 20 10 図 データ量:静止画像(人物顔データ ') 40000 happy angry surprise A I U E O 35000 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 JPEG quality 40 30 20 10 図 データ量:静止画像(人物顔データ ) 45000 happy angry surprise A I U E O 40000 Datasize [kB] 35000 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 JPEG quality 40 30 20 10 図 データ量:静止画像(人物顔データ 5) 45000 happy angry surprise A I U E O 40000 Datasize [kB] 35000 30000 25000 20000 15000 10000 5000 0 Uncompressed 90 80 70 60 50 40 JPEG quality 30 20 10 図 データ量:静止画像(人物顔データ +) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:喜び(正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:怒り(正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:驚き(正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”あ ” (正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”い ” (正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”う ” (正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”え ” (正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”お ” (正面:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:喜び(斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:怒り(斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:驚き(斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”あ ” (斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”い ” (斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”う ” (斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”え ” (斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”お ” (斜め方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:喜び(横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:怒り(横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:驚き(横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”あ ” (横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”い ” (横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”う ” (横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”え ” (横方向:人物データ ) ! 非圧縮 3! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ ! C#+7 H,$ I! C#+7 H,$ ! C#+7 H,$ :! C#+7 H,$ ! C#+7 H,$ J! C#+7 H,$ 図 再構築結果画像:”お ” (横方向:人物データ ) 第章 結論 本論文では,画像認識・処理,およびコンピュータグラフィックス技術を使用し,一般 的な # およびカメラを用いて実装可能な人物顔動作・表情認識,および 次元再構築 手法について述べた. これらにより,自然な人物顔情報の計算機入力,高速かつ高精度な人物表情変化の 認識,およびリアリティの高い人物顔画像の 次元再構成が実現されるため,従来の モデルベース符号化に基づくアプローチの問題点が改善され, 次元仮想空間共用形通 信システムにおいて,より日常的な人対人型コミュニケーションに近い,自然な対話 が期待できる. 第 章では,本研究の背景,および目的について明らかにした. 第 章では,本論文中でディジタル画像および 次元コンピュータグラフィックスを 用いる上で前提とした諸定義(座標系,カメラモデル, 次元オブジェクト表示方法) について述べた. また,本論文中で用いた 次元顔モデルの基本的な形状構築原理・表示方法につい てもここで述べた. 第 ,, 章では, 章で挙げた各課題を解決するための技術について詳述した. 第 章では, 章に述べた課題 に対し, 次元離散テンプレート系列を用いた テンプレート補間照合法により,カメラ入力顔画像中の人物の 次元人物顔角度変化 を計測する手法を提案した. まず,異なる方向より撮影された人物顔画像を用いて 次元離散テンプレート系列 が作成される.次に,単純類似度を用いて入力顔画像が 次元離散テンプレート系列 を構成する画像と全数照合され,最も類似度の高い 枚の離散テンプレートの組が選 択される.さらに,小池ら による変形テンプレート推定法を応用し,隣接したテ ンプレート間の補間計算を行うことにより,より少ないテンプレート数による人物顔 角度計測が実現される. 基礎実験を行うことにより,テンプレート系列と同じ無表情顔画像を入力した時は 平均± °∼ °,表情変化のある画像を入力したときでも平均± °∼ °程度の誤差 で上下,左右,傾斜方向の角度を計測可能であることを明らかにした. これにより,人物顔情報が非接触で計算機入力でき,従来の画像処理技法に基づく アプローチよりも簡便な計算手法による,高速・高精度な顔角度計測が可能となる. 第 章では, 章に述べた課題 に対し,カメラ入力画像を直接用いて 次元顔 モデル上のテクスチャを適切に張り替えていくことにより,リアリティの高い 次元 人物顔画像を再構築する手法を提案した. まず,人物の正面・側面顔画像を用いることにより,人物顔形状を模した 次元顔形 状モデルが予め構築される.次に,フレーム間差分と輝度プロジェクションを用いて 入力動画像フレーム中より人物顔領域が特定される.特定された顔領域は抽出・正規 化され, 章に述べた方法によって 次元顔角度が計測される.この結果をもとに入力 画像フレームを補正して擬似正面画像を作成し,これを用いて前述のパーソナル 次 元顔モデル上のテクスチャを張り替えていくことにより, 次元人物顔画像が再構築さ れる. 一般的なビデオカメラおよび計算機を使用した基礎実験により,この手法の有効性 について明らかにした. これにより,従来のモデルベース符号化に基づくアプローチのように表情変化パラ メータ抽出処理を必要とせず,モデリングおよびモデル形状変形アプローチのみでは 再構築が困難なディテールを有し,従来の実画像に基づくアプローチよりも実際の人 物の顔に近い 次元人物顔画像が再構築される. 第 章では, 章に述べた課題 に対し, 次元顔モデルを顔面筋動作に基づき 定量的に変形し,自然な表情変化を再構築する手法について述べた. この手法では,カメラ入力された表情がどの基本表情カテゴリ(喜び,怒りなど)に 属するかを認識することを目的とした顔面筋モデル を応用して用いる.この顔面 筋モデルが顔面筋の伸縮則に基づき,カメラ入力画像中の主要顔構成要素の輪郭位置 を追跡可能である点に着目し,単純に表情カテゴリを判定するのではなく,顔面筋モ デルで定義されている顔面筋伸縮則に基づき, 次元顔モデルの顔構成要素上に位置す る各頂点を 次元的に移動できるようにした.また,顔構成要素上に位置しない各頂 点は顔面筋モデルを構成する各特徴点からの距離に応じ,重み付けして移動させるこ とにより, 次元顔モデルの全体的な形状が自然に変形されるようにした.カメラ入力 された動画像フレーム中より,ブロックマッチングに基づき,両目頭および鼻の下に 位置する つの顔特徴を追跡し,追跡結果をもとにカメラ画像にアフィン変換を施し, 擬似正面画像を生成する.擬似正面画像中の目・眉・唇・顎といった顔構成要素の最適 位置が顔面筋の伸縮動作に基づいて高速・高精度に追跡され, 次元顔モデルの形状が 適切に変形される.これにより,従来のモデルベース符号化に基づくアプローチでは 困難であった表情変化の定量的に表現され,自然な表情再構築が実現される. また,第 章に述べた,入力カメラ画像を用いた 次元顔モデル表面上のテクスチャ 張り替え法の原理を導入することにより,モデリングや形状変形処理のみでは困難な ディテールを再構築し,よりリアリティの高い 次元人物顔画像を再現可能にした.一 般的な # および 台の 5 カメラを用いたシミュレーション実験を通し,本手法の 有効性を主観的かつ客観的に明らかにした.ま,カメラ画像入力から再構築結果の生 成・表示までがニア・リアルタイムで実現が行われており,上下左右 °の人物顔角度 変化が生じても視覚的に満足な人物顔画像再構築が行われることについても確認した. 最後に,上記の手法を拡張し, 台のネットワーク接続した # を用いて人物顔表情 データの伝送,および 次元顔画像再構築を行うことができるようにし,ソフトウェア 実装により,高速な処理が実現可能であることを確認した. また,主観評価実験を通し,テクスチャ張り替え処理に用いる画像の C#+7 H, の値を下げていくと,ある値を境に 次元再構築顔画像の 9@ 値の低下の度合いが大 きくなり,C#+7 H, の値を 付近に設定しておけば視覚的に満足な 次元顔画像 が,画像非圧縮時の %程度のデータ量で再構築できることについても明らかにした. これにより,従来のモデルベース符号化アプローチで用いられていた定性的な表情 変化記述ルールでは表現することが困難であった微妙な表情変化(まばたき,発話の ときの口形状変化など)や,ある表情から異なる表情への遷移の再現が可能になり,よ り自然でカメラ入力顔画像に近いクオリティの 次元顔画像の再構築が実現される.ま た,ネットワーク接続した計算機間で高速な人物顔データ伝送,および再構築が期待 できる. 本章,第 章は結論であり,本研究の総括を行った. 謝辞 本研究を進める機会,および実験環境を与えて下さり,貴重な時間を割いて研究の方 向性を御指導戴きました寺島信義教授に深く感謝の意を表します. 本研究を進めるにあたり,多忙にもかかわらず貴重な時間を分けて頂き,数々の有 意義な御意見を賜わりました大谷 淳教授に深く感謝いたします. 本論文を執筆するにあたり,熱心にご指導いただきました山崎芳男教授,河合隆史 助教授に感謝いたします. 学部,修士課程在籍時に御指導いただき,7808B に就職/進学するきっかけを作っ て下さりました富永英義教授に感謝いたします. 共同で研究を行った元・国際情報通信研究科大谷研究室(現・" 社)の劉 奕志 氏,評価実験を行う上で御協力頂いた元・国際情報通信研究科寺島研究室(現・早稲田 大学環境情報研究所)の平田克二氏に感謝いたします.また,ビクトリア大学(ニュー ジーランド)のジョン・ティフィン教授,ラリータ・ラジャシンガム講師,オープン ラーニングネットワーク機構(オーストラリア)のアン・グーリー教授,およびスタッ フの皆様に感謝いたします. 学部時代,御指導いただきました池崎雄治氏(現・D00 データ),および津田伸生 元・早稲田大学理工学総合研究センター客員助教授(現・金沢工業大学)に感謝いた します. 理工学部電子・情報通信研究科富永研究室,通信・放送機構早稲田リサーチセンター, 早稲田大学大学院国際情報通信研究科寺島研究室,画像電子学会,三次元映像のフォー ラムを通じ,知り合った皆様に感謝いたします.また,苦楽をともにした国際情報通 信研究センター助手の皆様をはじめ,国際情報通信研究科教員・職員の皆様に感謝い たします. 最後に,私の我儘を許し,終始私をサポートしてくれた家族にこの場を借りて深く 感謝いたします. 年 月 佐藤 一 参考文献 安田靖彦,=テレビ電話は今>,スペクトラム* ? * D * 11 ! 岸野文朗,”ヒューマンコミュニケーション−臨場感通信− ”,テレビジョン学会 誌,?,D ,11 ! C @:* K L ,2* L:* D 02: * - 0; ,2 - 8: =?2, 1 0I2 &0 &12, I 5 -, 8 >* 0: C,2 I ?, , 8 &12* ?* D * 11 ! 寺島信義,”ハイパーリアリティ 第三千年紀のパラダイム ”,電気通信協会 ! D 02: * =-12&>* #2 8&9 M* ? * 11 ! D 02: * C 0Æ F &J: * =+N12 I ?2, 1 5 +, " : @3J I ,,2 -2>* 8+++ I2 9, * 11 ! - * C 0Æ* F &J: * F* 7* 5 #: D 02: >' , +N12 I -12 @ 3 2O 5 F2 >* #2 I : 8+++ 82 I2 9, +N1 * 11 ! 9:23(西田力ほか訳), “ 非言語コミュニケーション ”,聖文社 ! 「顔」の情報処理,電子情報通信学会論文誌 588!, 長谷川修,森島繁生,金子正秀: ?C 588,D ,11 ! 金子正秀,羽鳥光俊,小池 淳,=形状変化の検出と 次元形状モデルに基づく顔 動画像の符号化>,電子情報通信学会論文誌 '!,C ', ,11 ! 崔 昌正,原島 博,武部 幹,> 顔の 次元モデルに基づく表情の記述と合成>, 電子情報通信学会論文誌 !,? * D ,11 ! L.64* - -2: 0* =93 : 9'8! I2 12M I>* #28 , * * * 11 ! 森島繁生,岡田信一,原島 博,=知的インタフェースのための顔の表情合成法の 一検討>,電子情報通信学会論文誌 588!* ?C588* D* 11 ! P C P:* =93 I I # M* 11 ! O O2 3 2>* #2 相澤清晴,斎藤隆弘,原島 博,=構造モデルを用いた画像の分析合成符号化方 式>,電子情報通信学会論文誌 '!,C'8,D ,11 ! 吉田博明,広野 豊,河田 宏,=赤外画像による顔の向き認識>,電子情報通信 学会春季全国大会,5 ! 渡辺彰裕,斎藤英雄,=固定空間法を用いた濃淡画像からの顔の向きの推定法 >, 電子情報通信学会技術報告,8+ ! 間瀬健二,渡部保日児,末永康仁,=ヘッドリーダ:画像による頭部動作の実時間 検出>,電子情報通信学会論文誌 588!,?C588*D,11 ! 0 L3:, -2, * 0 D: 0 L3:*=9,9 524 ' : 12O " I 1: 8 &>* #2 : , 9 I C8 ! ティシルバリヤナゲ,相澤清晴,羽鳥光俊,=人間の顔 の向きの推定>,電子情報 通信学会技術報告,#&" ! 間瀬健二,=オプティカルフロー抽出による表情筋の動作検出>,電子情報通信学 会論文誌技術報告,#&" ! 山本正信,=動画像と距離情報の併用による 次元運動パラメータの直接推定法>, 電子情報通信学会論文誌 5!,C5,D , 11 ! # +; P ? 2* =0: >* , #: #2 8* 2* ! 崔 昌石,原島 博,武部 幹, “ 顔の 次元モデルを用いた顔面表情の分析 ”, 電子情報通信学会論文誌 588,?C588,D,11 ! 原島 博,石塚 満,井口征士,金子正秀,小林 宏,鹿野清宏,田中 央,東 倉洋一,土佐尚子,永田明徳,西田豊明,橋本周司,原 文雄,森島繁生,八木 康史,谷内田正彦,山田 寛,奥村晃弘, “ 感情擬人化エージェントのための顔情 報処理システムの 開発 ”,第 回 8# 技術発表会,11 ! 下田 宏,國弘 威,吉川榮和, “ 動的顔画像からのリアルタイム表情認識システ ムの試作 ”,ヒューマンインターフェース学会論文誌,? ,D ! 石井威望,岩田洋夫, “ コンピュータ画像処理を利用した顔の表情自動認識 ”,日 本機械学会論文集,?,D,11 ! K F* 5 0261,, L P2* =& 9 I2 >* #2 877&#-M* D4 @2* "* 11 ! 0 8:;4* - 2* 92: 5 0261,,* = 8 & 2, 3 + 9, #2 2>* #2 2 82 I2 , 7,2 &* D2* C1* 11 ! 青木義満,橋本周司,> 解剖学的知見に基づく顔の物理モデリングによる表情生 成>,電子情報通信学会論文誌 !,? C,D ,11 ! 向川康博* 中村裕一,大田友一 =複数の顔写真の組合せによる任意方向・任意表情の 顔画像の生成>,電子情報通信学会論文誌 588!* ?C 588* D* 11 ! 蓑浦大佑,山名岳志,正木茂樹,一之瀬進,”多人数参加型 次元仮想区間におけ る大規模人数表示方法 ”,電子情報通信学会論文誌 588!* ?C 588* D* 11 ! 青山晃治,山村 毅, 大西 昇,杉江 昇 >一台のカメラによる顔と視線方向の 推定>* 電子情報通信学会技術研究報告 #&" ! 太田寛志,佐治 斉,中谷広正,> 顔面筋に基づいた顔構成要素モデルによる表情変 化の認識>,電子情報通信学会論文誌 588!,? C588,D ,11 ! 秋本高明,末永康仁,>頭部の正面・側面像と基本 次元形状を用いた顔画像生成 手法>,電子情報通信学会技術報告,#&" ! 小松功児,アニメーション作成のための顔の曲面モデル>, 情報処理学会論文誌, ? *D>,11 > ! 9# D8'2* > +N12>* 1,2 721:, ?,D,11 ! 8#2;* =5 9 2 " 72 9 2 ?4 I >* 8+8+ 02 * ?+5* D* 11 ! 0 C32* =5 # + D2 6 I2 &>* ': 2M 0:* 97 "O2 ! #:* C -;2* 5 F:;* & 6; 5 - * =:6 & +N12 I2 #:21:>* #2 877&#-M* 11 ! 8#2; L P2*> 1,2 >* 11 * L #2 ! 小池義昌,田辺雅秋,=テンプレート補間および重み付き学習型ニューラルネット ワークを用いた濃淡画像の照合法>,電子情報通信学会論文誌 588!,?C588* D* 11 ! & '2, 0 #* > & ,2 O2, 0 1>* 02 #98* ? * D ! 飯島泰蔵,=パターン認識 マッチング法による文字認識の理論>,電子情報通信 学会誌,,,11 ! 井上誠喜,林 正樹,三谷公二,八木伸行,中須英輔,奥井誠人,” 言語で学ぶ 実践画像処理 ”,オーム社 ! “ 個人識別のための多重ピラミッドを用いたシーン中の顔の探索・位置 小杉 信, 決め ”, 電子情報通信学会論文誌 588!,?C588,D ,11 ! 安居院猛,長尾智晴,=画像の処理と認識>,照晃堂 ! 海老原一之,鈴木紀子,大谷 淳,岸野文郎,”臨場感通信会議のための実時間 次元表情再現方法 ”,電子情報通信学会論文誌 !,?C,D ,11 ! & ;2J C F* = 1, I 82 ?4 I2 50?>* #2 : P2;:1 0:2 , I 1,2 ?* 11 ! 9 C '; K K3* =&6 +N12 ,2 & D& 9>* 8 P2;:1 , 7,2 & M* 11 ! 糸川容一(訳),=複雑な顔の動きを再現する>,日経 7* * * 11 ! 鴬田 聡,安達文夫, “ 逐次マッチングによる移動物体の切り出し ”,電子情報通 信学会論文誌,?5,11 ! 佐々木努, 赤松 茂,末永康仁, “ 顔画像認識のための色情報を用いた顔の位置 合わせ法 ”,電子情報通信学会技術報告,-8# ! 広野 豊,木原 均,西条淳夫* 河田 宏,大隈 正人, “ 赤外・可視画像による シーンからの人物抽出 ”,電子情報通信学会論文誌春季全国大会 5 ! ? 7O2J,* 5 ' :2* & L 2:2 D 2:2*=F -, D4112 #:21:>* #2 ?#&M* 11 ! 8 24* - + C &F: * =, +N2 I I,2>* #2 &* * 11 ! G; #2:6;* 伊藤崇之,岡本敏雄,=顔の動き特徴量を用いた表情認識シス テム>,電子情報通信学会技術報告,-8# ! 塚本明利,李 七雨,辻 三郎,= 次元モデルとテキスチャマッピングによる顔 の追跡>,電子情報通信学会技術報告,#&" ! 大津展之,=判別および最小 乗規準に基づく自動しきい値選定法>,電子情報通 信学会論文誌 5!,?C5,D,11 ! “ 部分特徴テンプレートとグ ローバル 宋 欣光,李 七雨,徐 剛,辻 三郎, 制約による顔器官特徴の抽出 ”,電子情報通信学会論文誌 588 OC588 D, 11 ! K 9, G;* Q 2: I2 & 2 ? 8 1 I - # 76 52 9,2 >* #2 8+++ ,2: 82 I2 7,2 &* 723* 2* 11 ! 川戸慎二郎,鉄谷信二,”リング周波数フィルタを利用した眉間の実時間検出 ”, 電子情報通信学会論文誌 588!,? C588,11 ! 川出雅人,”オムロンにおける顔センシング技術の研究と応用 ”,情報処理学会研 究会資料, ?89 ! 福井和広,山口 修,”形状変形とパターン照合の組み合わせによる顔特徴点抽 出 ”,電子情報通信学会論文誌 588!,? C 588,11 ! 佐治 斉,木村篤史,太田寛志,中谷広正,> 解剖学的知識を用いた顔構成要素の動 きの追跡>,電子情報通信学会論文誌 588!,? C 588,11 ! 三宅洋一,> デジタルカラー画像の解析・評価>,東京大学出版会 ! 小杉 信,山下幸治,> 濃淡モザイク特徴を用いた顔の向きにロバストな自動個 人識別システム>,電子情報通信学会論文誌 588!,? C 588,11 ! :1BB444J2B :1BB444J12BJ1 B 研究業績 論文誌論文 (査読あり) ! 佐藤 一,大谷 淳,寺島信義, 「画像データ削減を考慮した人物顔データのネッ トワーク伝送と 次元再構築に関する検討」,画像電子学会誌,第 巻 第 号, 11, 年 月.(本論文 章に関連) ! 佐藤 一,大谷 淳,寺島信義:>顔面筋動作に基づく形状変形とテクスチャの張 替えによる三次元人物顔画像の再構築>,電子情報通信学会誌 588,?C588, D,11 , 年 月.(本論文 章に関連) ! 佐藤 一,寺島信義:>臨場感通信会議を対象とした実画像ベースの人物顔画像生 成法の提案>,画像電子学会誌,? ,D ,11 , 年 月. (本 論文 章に関連) ! 佐藤 一,寺島信義:>テンプレート補間照合による 次元人物顔方向計測法>,画 像電子学会誌,? ,D ,11 , 年 月.(本論文 章に関連) 国際会議 (査読あり) ! -J * C, @: D3,: 02: * >& 5 " #2 23 5I2 0N,2 & 11>* #2 I : N: 8+++ 82 I2 , 7,2 & 7 !* ,* L2* 11* 9 ! -J * C, @: D3,: 02: * >2, I & 5 8 , ? 8 >* #2 I : O: 82 1, #2 8 11 8# !* #2* 2* 11 * C, ! K:: F,* -J * D3,: 02: C, @: >2, I +N12 " 9,3 ,2 9>* #2 I : 8+++ 82 I2 9, +N1 89+ !* 5&@9 #2* 1* F,* 462* ,, ! -J * C: 0Æ* F &J: * 7 D3,: 02: > 32O ?2, 1 5 F2 " : 82>* #2 I : : #A I2 , # !* 11 * 0;* C1* 1 32 ! -J * C: 0Æ* F &J: * F* 7* 5 #: D3,: 02: >' , +N12 I -12 @ 32O 5 F2 >* #2 I : 8+++ 82 I2 9, +N1 89+ !* 11 * 0;* C1* ,, ! -J * D3,: 02: -: 0 * >-, 8 2 I2 ?2, 1 0I2 " 2 81, 8 >,#2 I : 8#& P2;:1 9: ? 11 9? !* 0;* C1* 11 * DO 32 国内研究会 ! 佐藤 一,大谷 淳,寺島信義:>動画像と顔面筋動作を考慮したモデルを用いた 次元人物顔画像構築法>,電子情報通信学会技術報告 #&9" * 11 , 年 月 ! 佐藤 一,劉 奕志,大谷 淳,寺島信義:> 枚の実写画像による顔面筋動作を 考慮した 次元顔特徴モデルの構築法>,電子情報通信学 会技術報告 8+ * #&9" * 9?+ * 11, 年 月. ! 佐藤 一,C: 0Æ* F &J: * F* 7* 5 #:* 寺島信義:>インターネットアクセス型協調学習 システム -12 ∼システム概要と基礎実験∼>,情報処理学会グループウェア研究会研究報告 7P * 11 , 年 月. ! 佐藤 一,寺島信義,富永英義:>実画像をベースとした人物顔合成法>,情報処 理学会オーディオビデオ研究会研究報告 * 11 , 年 月. ! 佐藤 一,寺島信義,富永英義:>臨場感通信会議における人物顔画像の実時間生 成法>,電子情報通信学会技術報告 9?+* 11 , 年 月. ! 佐藤 一,寺島信義,富永英義:>アバタ生成のための人物顔姿勢推定に関する検 討>,電子情報通信学会技術報告 #&9" * 11 , 年 月. ! 佐藤 一,池崎雄治,津田伸生,寺島信義,富永英義:>テンプレート補間照合を 用いた顔の方向計測>,第 回知能情報メディアシンポジウム,11 , 年 月. 国内大会 ! 佐藤 一,大谷 淳,寺島信義:>形状変形とテクスチャ張り替えを用いた 次元 人物顔再構築法>, 年電子情報通信学会春季全国大会, , 年 月. ! 佐藤 一,大谷 淳,寺島信義:>実写動画像を用いた現実的な 次元人物顔画像 の再構築法>, 年画像電子学会年次大会予稿集,11 , 年 月. ! 佐藤 一,大谷 淳,寺島信義:>実写動画像と顔面筋モデルによる 次元人物顔 画像の構築>, 年電子情報通信学会春季全国大会 5 , 年 月. ! 佐藤 一,大谷 淳,寺島信義:>単眼カメラによるリアルタイム人物顔特徴トラッ キング法の検討>, 年電子情報通信学会春季全国大会,5 , 年 月. ! 劉 奕志,佐藤 一,大谷 淳:>筋肉動作を考慮した 次元顔モデルの構築と表 情生成の応用>, 年電子情報通信学会春季全国大会, , 年 月. ! 劉 奕志,佐藤 一,大谷 淳:>5 顔モデル生成方法の比較検討>, 年電子 情報通信学会ソサイエティ大会,5 , 年 月. ! 佐藤 一,C: 0Æ* F &J: * F* 7* 5 #:* 寺島信義:>インターネットアクセス型協調学習 システム -12 に関する報告>, 年電子情報通信学会春季全国大会, , 年 月. ! 佐藤 一,寺島信義,富永英義:>カメラ画像を用いた人物顔画像の実時間認識・ 再構築システムの提案>, 年電子情報通信学会春季全国大会,5 , 年 月. ! 佐藤 一,寺島信義,富永英義:>モザイクパターンとテンプレート・マッチング によるカメラ画像中の人物顔領域抽出法> , 年電子情報通信学会春季全国大 会,5 , 年 月. ! 池崎雄治,佐藤 一,津田伸生,寺島信義,富永英義:>2台のカメラを用いた 次元画像の実時間生成に関する検討>, 年電子情報通信学会春季全国大会, 5 , 年 月. ! 佐藤 一,池崎雄治,津田伸生,寺島信義,富永英義:>テンプレート補間照合を 用いた人物顔方向計測>, 年電子情報通信学会春季全国大会,5 , 年 月. ! 佐藤 一,池崎雄治,津田伸生,寺島信義,富永英義:>テンプレート補間照合を 用いた顔の方向計測>,第 回映像メディア処理シンポジウム,11 , 年 月 その他 (発表) ! 李 嘉駒,佐藤 一,寺島信義,> 次元仮想空間における仮想物体操作のための単 眼レンズによる腕形状の認識>,三次元映像のフォーラム会誌,第 巻 号,11 , 年 月. ! 李 嘉駒,佐藤 一,寺島信義:>単眼シルエット画像を用いた腕動作の認識法>, 年画像電子学会年次大会予稿集,11 , 年 月. ! 李 嘉駒,佐藤 一,寺島信義:>一台のカメラによる 次元仮想空間における腕 の動きの認識に関する検討>, 年電子情報通信学会春季全国大会,5 , 年 月. ! 松川浩二,佐藤 一,寺島信義,長 幾朗:>仮想空間におけるテキストコンテン ツ表示の一検討> 年電子情報通信学会春季全国大会, , 年 月. (解説) ! 佐藤 一,C: 0Æ* F &J: * F* 7* 5 #:* 寺島信義:>インターネットアクセス型協調学習 システム -12>, 三次元映像のフォーラム会誌,? ,D ,11 , 年 月. 図目次 次元仮想空間共用形通信システムの概念 次元仮想空間共用形通信システムの実装例 モデルベース符号化の概念 第 ,, 章の関連 カメラモデル 座標変換 非アンカーポイント頂点の補間 三角形ポリゴン テクスチャマッピングの概念 隠面消去 人物顔角度の計測法 次元離散テンプレート系列の一例 類似度法のベクトル表現 線形補間法の概念 ベクトル表現を用いた類似性パラメータの算出 顔角度変化と類似度の関係 線形補間法 補間計算式 枚の隣接テンプレートを用いた補間計算 無表情顔画像の 次元角度計測結果 左右方向 無表情顔画像の 次元角度計測結果 上下方向 無表情顔画像の 次元角度計測結果 傾斜方向 有表情顔画像の 次元角度計測結果 左右方向 有表情顔画像の 次元角度計測結果 上下方向 有表情顔画像の 次元角度計測結果 傾斜方向 提案手法の流れ フレーム間差分 連続した 枚のフレーム間差分 垂直方向の輝度プロジェクション ! 水平方向の輝度プロジェクション ! 次元動き補償の概念 顔形状モデル頂点とテクスチャ画像との対応付け 次元顔形状モデル 次元再構築結果 ! 次元再構築結果 ! 次元再構築結果 ! 次元再構築結果 ! 次元再構築結果 ! 提案手法の概要 次元顔モデル 主要な顔面筋と顔特徴点の配置 顔面筋モデルの構造 スプリングの動作 連続フレーム間のブロックマッチング 正規化入力フレームの作成 計測結果平均化の影響 目・眉上の特徴点とスプリングの構造 目・眉輪郭上の形状モデル頂点の移動 座標値の補間方法:目 顎・唇上の特徴点とスプリングの構造 座標値の補間:唇 唇(内側・外側)上の特徴点 唇上の頂点変形 その他の頂点の移動 テクスチャの張り替え 口および目内部のポリゴン モデル整合による顔角度の計測 主観評価結果(静止画像) :人物データ 主観評価結果(静止画像) :人物データ ' 主観評価結果(静止画像) :人物データ 主観評価結果(静止画像) :人物データ 5 主観評価結果(静止画像) :人物データ + 客観評価結果(静止画像) :人物データ 客観評価結果(静止画像) :人物データ ' 客観評価結果(静止画像) :人物データ 客観評価結果(静止画像) :人物データ 5 客観評価結果(静止画像) :人物データ + 主観評価結果(アニメーション) :人物データ 主観評価結果(アニメーション) :人物データ ' 主観評価結果(アニメーション) :人物データ 主観評価結果(アニメーション) :人物データ 5 主観評価結果(アニメーション) :人物データ + 客観評価結果(アニメーション) :人物データ 客観評価結果(アニメーション) :人物データ ' 客観評価結果(アニメーション) :人物データ 客観評価結果(アニメーション) :人物データ 5 客観評価結果(アニメーション) :人物データ + 実験結果:喜び(人物データ ) 実験結果:怒り(人物データ ) 実験結果:驚き(人物データ ) 実験結果:> あ>(人物データ ) 実験結果:> い>(人物データ ) 実験結果:> う>(人物データ ) 実験結果:> え>(人物データ ) 実験結果:> お>(人物データ ) 顔角度変化の限界 人物顔データ ! システム構成 データ伝送の流れ 主観評価結果(アニメーション) 主観評価結果(静止画像)> 喜び> 主観評価結果(静止画像)> 怒り> 主観評価結果(静止画像)> 驚き> 主観評価結果(静止画像)> あ> 主観評価結果(静止画像)> い> 主観評価結果(静止画像)> う> 主観評価結果(静止画像)> え> 主観評価結果(静止画像)> お> データ量:アニメーション データ量:静止画像(人物顔データ ) データ量:静止画像(人物顔データ ') データ量:静止画像(人物顔データ ) データ量:静止画像(人物顔データ 5) データ量:静止画像(人物顔データ +) 再構築結果画像:喜び(正面:人物データ ) 再構築結果画像:怒り(正面:人物データ ) 再構築結果画像:驚き(正面:人物データ ) 再構築結果画像:”あ ” (正面:人物データ ) 再構築結果画像:”い ” (正面:人物データ ) 再構築結果画像:”う ” (正面:人物データ ) 再構築結果画像:”え ” (正面:人物データ ) 再構築結果画像:”お ” (正面:人物データ ) 再構築結果画像:喜び(斜め方向:人物データ ) 再構築結果画像:怒り(斜め方向:人物データ ) 再構築結果画像:驚き(斜め方向:人物データ ) 再構築結果画像:”あ ” (斜め方向:人物データ ) 再構築結果画像:”い ” (斜め方向:人物データ ) 再構築結果画像:”う ” (斜め方向:人物データ ) 再構築結果画像:”え ” (斜め方向:人物データ ) 再構築結果画像:”お ” (斜め方向:人物データ ) 再構築結果画像:喜び(横方向:人物データ ) 再構築結果画像:怒り(横方向:人物データ ) 再構築結果画像:驚き(横方向:人物データ ) 再構築結果画像:”あ ” (横方向:人物データ ) 再構築結果画像:”い ” (横方向:人物データ ) 再構築結果画像:”う ” (横方向:人物データ ) 再構築結果画像:”え ” (横方向:人物データ ) 再構築結果画像:”お ” (横方向:人物データ ) 表目次 入力画像の顔角度 主観評価基準 限界フレームにおける顔角度 メッセージ一覧
© Copyright 2025 Paperzz