聴衆の関心が一番高いのは、話の初め

チュートリアルのススメ
- チュートリアルのためのチュートリアル-
2010年7月26日
MIRU2010 若手プログラム
藤吉弘亘 (Hironobu Fujiyoshi)
E-mail : hf@cs.chubu.ac.jp
URL:http://www.vision.cs.chubu.ac.jp/
Twitter:twitter.com/hf149
中部大学工学部情報工学科
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアルの経験
• SIFTのチュートリアルがきっかけ?
‒ 2007年9月3日:情報処理学会CVIM研究会
‒ 2008年10月30日:画像符号化・映像メディア処理シンポジウム
‒ 2010年5月21日:ロボット学会セミナー
‒ 企業の方向けのセミナー(6回)
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアルを聴こう!
• 体系的に技術を知る事ができる
‒ 数多くの参考文献をサーベイしなくても良い
• 知識・技術が広まる
‒ CV分野の活性化に貢献
SIFTというキーワードがでてくる日本語論文数の推移
50
40
論文数
30
20
10
0
2000
SIFT(ICCV 99)
2003
2006
2009
SIFTチュートリアル
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアルをしよう!
• 知識・技術の深い理解につながる
‒ 第三者の立場から説明することで、本質を捉える
‒ 新しいアイディアの創出
• 多くの方に知って頂けるチャンス!
‒ 就職活動に有利かも
‒ 共同研究のきっかけにも
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
あっ、SIFTの人!
1. プレゼン資料作り
2. 練習
3. 発表(本番)
4. 資料の公開
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
1. プレゼン資料作り
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
最初にやることは?
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
最初にやることは:スケッチ
→ パワーポイントを開く前にスケッチをしてストーリーを作ろう!
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
スライド作成時に気をつけていること
• 視覚的に、シンプルに!
‒ 話し言葉と同じ情報の文字 VS スカスカだけど図+文字
‒ シンプルな方が、考えるきっかけを与える
• 72時間後、記憶に残るのは
論
の理
‒ 文字と言葉によるプレゼンテーション→10%
果
性効
位
像優
画
‒ 絵を加えると→65%
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
!の連続性を保持した平滑化処理 (2/3)
L1 (" 0 )
L1 (k" 0 )
L1 (" 0 )
"0
!
!
!の連続性を保持した平滑化処理 (3/3)
L1 (2" 0 )
!
!
!
平滑化画像生成例
L1 (2" 0 )
• DoG画像から極値(極大値or極小値)を検出
2" 0
‒ 注目画素のDoG値を画像スケール空間の26近傍と比較
1オクターブ目
!
!
!
入力画像
DoG画像からの極値検出
"0
"0
1オクターブ目
!
L1 (k" 0 )
!
入力画像
2" 0
"0
L1 (2" 0 ) # L2 (" 0 )
L1 (2" 0 ) # L2 (" 0 )
L2 (" 0 ) L2 (k" 0 ) L2 (2" 0 )
2オクターブ目
!
!
!
1/4の画像サイズに
ダウンサンプリング
L3 (" 0 ) # L2 (2" 0 ) # L1 (4" 0 )
!
!
!
!
!2"
!
0
!
4" 0
!
!
!
4" 0
!
4" 0
!
!
8" 0
!
!
"0
!
!
!
SIFTアルゴリズム
DoG
3
!3=16
47
最大
極値!1=5
→主曲率とコントラストにより削除
キーポイントのローカライズ
2. 特徴記述
12
オリエンテーションの算出
DoG
10
2
!0=4
特徴量の記述
原画像
Scale(!)
比率による固有値の表現
• エッジ上に存在するキーポイント候補点を削除
!
":第1固有値と第2固有値の比率
!
!
2つの固有値",
#の関係からエッジ上の点を判別可能
!
Edge
Tr(H) 2 (" th + 1) 2
<
Det(H)
" th
2
行列式: Det(H) = "# = Dxx Dyy $ (Dxy )
":第1固有値 " :第2固有値
!
固有値の比率によるしきい値処理
対角成分の和: Tr(H) = " + # = Dxx + Dyy
"Dxx Dxy %
' から主曲率を算出 D:DoG画像
#Dxy Dyy &
ヘッセ行列 H = $
!
Tr(H) 2 (" + # ) 2 ($# + # ) 2 ($ + 1) 2
=
=
=
!$
Det(H)
"#
$# 2
!
", #ともに大きい:コーナー
">># or #>>"
Edge
:エッジ
しきい値未満
!
" = #$ (" > # )
ある点 x = (x, y," )T でのDoG関数 D(x) をテイラー展開
D(x) = D +
比率が小さい:キーポイント候補点
!
"D T
1 " 2D
x + xT 2 x
"x
2 "x
!
x に関する導関数を求め0とする
" th =10のとき:しきい値=12.1
!
!
"D " 2 D
" 2D
"D
+
xˆ = 0
xˆ = #
2
"x " x 2
"x
変形 "x
!
!
固有値を求めずにエッジ上の点を判別可能
キーポイント候補1895点
"
xˆ :サブピクセル位置 (x, y," )T
#* 2 D
!
% 2
% *x
#x &
%* 2 D
% (
xˆ = %y ( = ) %
% *xy
$%" '(
%* 2 D
%*x"
$
!
固有値の比率により決定
!
コントラストによる候補点削除
(キーポイント数:421点)
3次元空間におけるパラボラフィッティング
比率が大きい:エッジ上の点
!
主曲率による候補点削除
(キーポイント数:1197点)
キーポイントのサブピクセル位置推定
しきい値:" th により決定
しきい値以上
", #ともに小さい:フラット
Corner
!
キーポイント候補点
(キーポイント数:1895点)
スケールに対する不変性を得る
主曲率によるエッジ上のキーポイント削除
Flat
極値!2=10
400 400
!
"
Scale(!)
!2=2!1
開口問題
ノイズの影響を受け易い
‒ DoG出力の小さい点
スケールとキーポイント検出
41
!1=6
‒ エッジ上の点
1. キーポイント検出
200 200
53
!2=10
DoG画像
• キーポイントに向かない点
DoG出力
100
平滑化画像
キーポイントのローカライズ
ガウシアンフィルタ出力
103
スケール
!
!
極値の性質
!4=25
!
!
8" 0
3枚1組
!
k" 0
!
DoGによるスケール探索
!
k 2" 0
!
L3 (" 0 ) L3 (k" 0 ) L3 (2" 0 )
!
" 0 で平滑化
!
k 3" 0
4" 0
2オクターブ目
L3 (" 0 ) # L2 (2" 0 ) # L1 (4" 0 )
L3 (" 0 )
2" 0
L2 (" 0 ) L2 (k" 0 ) L2 (2" 0 )
!
キーポイント候補1197点
)1
* 2D&
(
*x" (
* 2D(
(
*y" (
* 2 D * 2 D(
*y" *" 2 ('
* 2D
*xy
* 2D
*y 2
!
#*D&
% (
% *x (
%*D(
% *y (
% (
%*D(
$*" '
サブピクセル位置
!
!
コントラストによるしきい値処理
SIFTアルゴリズム
オリエンテーションの算出
• キーポイントのオリエンテーション
キーポイント候補点のサブピクセル位置でのDoG出力値を再計算
T
D( xˆ ) = D +
DoG出力値の絶対値 D(xˆ ) がしきい値未満
!
ローコントラスト:ノイズの影響を受けやすいため削除
しきい値=0.03のとき(※
DoG出力値は0∼1)
!
スケールとキーポイント検出
‒ 全方向を36方向に離散化
‒ キーポイントの持つスケールに対応する領域から勾配を算出
‒ ガウス窓と勾配強度から重みをヒストグラムに加算
キーポイントのローカライズ
ガウス窓
!
平滑化画像L(u, v)
2. 特徴記述
オリエンテーションの算出
キーポイントが検出された平滑化画像 L(u,v) の勾配強度 m(u,v) と
勾配方向 " (u,v) を算出
特徴量の記述
キーポイント候補1197点
• 勾配情報から勾配方向ヒストグラムを作成
‒ オリエンテーションの向きに正規化を行うことで回転に不変な
特徴量を算出
1. キーポイント検出
1 "D
xˆ
2 "x
勾配方向ヒストグラムの作成
勾配方向
$ L(u,v + 1) # L(u,v #1) '
!
" (u,v) = tan#1&
)
% L(u + 1,v) # L(u #1,v) (
m(u,v) = (L(u + 1,v) " L(u "1,v)) 2 + (L(u,v + 1) " L(u,v "1)) 2
$ L(u,v + 1) # L(u,v #1) '
" (u,v) = tan#1&
)
% L(u + 1,v) # L(u #1,v) (
!
!
!
!
= 重み
1
勾配方向ヒストグラム
2
2
m(u,v) = (L(u + 1,v) " L(u "1,v))
!L(u,v "1))
! + (L(u,v + 1) "
キーポイント候補421点
勾配強度
m(u,v)
チュートリアルのためのチュートリアル
/ 中部大学工学部情報工学科 藤吉弘亘
Gradientベースの特徴抽出
-SIFTとHOG- :http://www.vision.cs.chubu.ac.jp/SIFT/
h
0
0
勾配方向(36bin)
35
聴講者の関心度の時間的推移「素人のように考え、玄人として実行する」より引用
ここが重要!
聴講者の関心度
話のはじめ
話の終わり
→ 聴衆の関心が一番高いのは、話の初め
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
つかみはOK?
ステレオ画像
Related Work
SIFT(Scale-Invariant Feature Transform)
• 誰が考えたのか?
回転・スケール変化
照明変化等に頑健
Lowe:
SIFT
特徴点検出
Harris, Stephens:
Harris Corner
Detector
1988
1. なぜSIFTを
スケール選択
Lindeberg:
Scale-space
theory
1994
回転に不変
Schmid, Mohr:
invariant
1997
‒ 1999年発表 (2004年journal)
1999
背景の影響
を低減
頑健性の向上
Ke, Sukthankar:
PCA-SIFT
Local grayvalue
‒ British Columbia大学のDavid Lowe
2004
Stein, Herbert:
BSIFT
• どんなアイデア?
‒ 特徴点(キーポイント)の検出と特徴量の記述
‒ 回転・スケール変化に不変,照明変化に頑健な特徴量
2005
2. SIFTの位置づけ
3. SIFTのアイディア
最初の3枚で
→ 情熱と技術のアイディアを伝え、分かった気になってもらえればOK
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
CVIM研究会チュートリアルシリーズ
Gradientベースの特徴抽出 - SIFTとHOG -
http://www.vision.cs.chubu.ac.jp/SIFT/
2007年9月4日
藤吉 弘亘
中部大学工学部情報工学科
ステレオ画像
Related Work
回転・スケール変化
照明変化等に頑健
Lowe:
SIFT
特徴点検出
スケール選択
回転に不変
Harris, Stephens:
Lindeberg:
Schmid, Mohr:
Harris Corner
Scale-space
Local grayvalue
Detector
theory
invariant
1988
1994
頑健性の向上
1997
Ke, Sukthankar:
PCA-SIFT
1999
2004
背景の影響
を低減
Stein, Herbert:
BSIFT
2005
SIFT(Scale-Invariant Feature Transform)
• 誰が考えたのか?
‒ British Columbia大学のDavid Lowe
‒ 1999年発表 (2004年journal)
• どんなアイデア?
‒ 特徴点(キーポイント)の検出と特徴量の記述
‒ 回転・スケール変化に不変,照明変化に頑健な特徴量
2. 練習
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
プレゼンの練習
• 1に練習!2に練習!3,4も練習!5に練習
‒ 人前で練習
‒ 意見を聞いて修正の繰り返し
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
人の振り 我が振り見て、我が振り直せ
2006年度
2007年度
画像情報処理:http://www.vision.cs.chubu.ac.jp/CULVA/
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
3. 発表(本番)
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
さて本番!
なんとかなる!
- TKも緊張する -
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
なんとかなる!
• 100%伝える必要はない
‒ 80∼90%理解してもらえればOK
‒ 残り10%が、次への学習意欲につながる
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
4. 資料の公開
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアル資料の公開
• 三種の神器
‒ わかりやすい(わかった気になる)講演
‒ 講演資料(PPTやサーベイ資料)
‒ ソースコード(後でなんとかなると思う)
• 恥ずかしいけど、どんどん公開しよう
‒ 誰かの役に立つ
‒ いろんな視点でのチュートリアルがあった方が良い
‒ Twitterの利用
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
藤吉研究室によるチュートリアル資料
• SIFTと最近のアプローチ(資料)
‒ http://www.vision.cs.chubu.ac.jp/SIFT/
• 画像局所特徴量(資料)
‒ http://www.vision.cs.chubu.ac.jp/Features/
• HOG+AdaBoostによる人検出(資料+ソースコード)
‒ http://www.vision.cs.chubu.ac.jp/HOG/
• 動画像理解技術(資料+ソースコード)
‒ http://www.vision.cs.chubu.ac.jp/VU/
• 画像情報処理(講義映像)
‒ http://www.vision.cs.chubu.ac.jp/CULVA/
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアルのために覚えておいてほしい三点
1. ストーリーを考える!
2. スライドはシンプルに!
3. TKも緊張する!
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
絶対に読んでほしい(強制です!)
「スティーブ・ジョブズ驚異のプレゼン」
カーマイン・ガロ 著
ISBN978-4-8222-4816-1
「素人のように考え、玄人として実行する」
金出武雄 著
ISBN4-569-66287-0
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘
お問い合わせ先
藤吉研究室
Fujiyoshi Laboratory
藤吉弘亘(Hironobu Fujiyoshi)
中部大学工学部情報工学科
E-Mail: hf@cs.chubu.ac.jp
URL: http://www.vision.cs.chubu.ac.jp/
TEL:0568-51-9096
FAX:0568-51-1540
〒487-8501 愛知県春日井市松本町1200
チュートリアルのためのチュートリアル / 中部大学工学部情報工学科 藤吉弘亘