物体のサイズ感を利用した3DCG画像CAPTCHAの検討

Vol.2016-CSEC-75 No.5
2016/12/1
情報処理学会研究報告
IPSJ SIG Technical Report
物体のサイズ感を利用した 3DCG 画像 CAPTCHA の検討
西原 大貴1,a)
新井 イスマイル2
概要:人間特有の「常識からの逸脱を認識する能力」として,2 つの 3 次元 (3D) オブジェクトのめり込
みを検出できる能力に着目した既存研究の 3DCG 画像 CAPTCHA は,CAPTCHA に要求される 3 要件
「利便性」「安全性」「自動生成性」を満たすとされたが,輪郭抽出技術の応用などによって機械が解読で
きる可能性がある.これに対し,本研究では,
「常識からの逸脱を認識する能力」として,特定の 3D オブ
ジェクトのサイズ感が周囲と異なる場合に違和感を覚える能力に着目した CAPTCHA を提案する.その
利便性および安全性について検証を行った結果,利便性のうち回答時間は既存研究に劣らないことが期待
できる一方で,正答率は使用するオブジェクトの組み合わせに大きく左右されることが分かった.また,
総当たり攻撃への安全性は,CAPTCHA 画像 1 枚のみの出題では十分に確保されにくく,既存研究と同様
に複数回出題するなどの検討が必要であるという結果を得た.
キーワード:ネットワークセキュリティ,CAPTCHA,サイズ感,3 次元コンピュータグラフィックス
1. はじめに
れる [2].これに対し,我々は「サイズ感」に着目するこ
とで,輪郭抽出技術などにより各オブジェクトの形状や名
Web サービスに対する,自動プログラムを用いた機械攻
称が限定されたとしても容易には解読されないと期待で
撃を防ぐ技術の一つとして,CAPTCHA(Completely Auto-
きる手法を提案する.本稿では,提案手法の利便性および
mated Public Turing test to tell Computers and Humans
総当たり攻撃に対する安全性を検証し,今後の方針を検討
Apart) と呼ばれる人間か機械かを識別するテストが利用
する.検証の結果として,利便性のうちユーザの回答時間
されている.それらのうち文字判別型 CAPTCHA は現在
は平均 5.4 秒,正答率は平均 65.4%であった.文字判別型
広く利用されているが,近年では OCR(Optical Character
CAPTCHA の回答時間が 12 秒,正答率が 92%である [3]
Recognition) 技術の発展などにより,機械攻撃によって破
ことを鑑みれば,提案手法は利便性の向上が期待できる一
られる可能性が高まってきた.すなわち,CAPTCHA は,
方で,正答率が低下したためオブジェクトの選定に配慮が
人間にとって解読しやすいこと (利便性) の他に,機械攻
必要であることが確認された.また,総当たり攻撃への安
撃耐性 (安全性) が確保されている必要がある.一方で,
全性は,CAPTCHA 画像 1 枚のみの出題では十分に確保
CAPTHCA には,出題が自動生成可能である (自動生成
されにくく,非現実画像 CAPTCHA と同様に複数回出題
性) という要求も存在する [1].これを満たさない場合,出
するなどの検討が必要であるという結果を得た.
題の総数は有限となり,データベースを参照する機械攻撃
が予測される.従って,CAPTHCA にはこれらの 3 要件
2. 関連研究
が要求される.
文字判別型 CAPTCHA は,図 1*1 のように歪ませた文
これを満たす既存研究として藤田らは,常識的な形状を
字列画像の文字列をユーザが読み取り,テキストとして入
した異なる 2 つの 3 次元オブジェクトをマージしてめり
力するものである.自動生成が可能であり,かつ機械攻撃
込ませることで生成した非現実オブジェクトをユーザに
耐性に優れていたため,現在に至るまで多くの Web サービ
選択させる 3DCG 画像 CAPTCHA 手法 (以下,非現実画
スで利用されてきたが,近年では OCR(Optical Character
像 CAPTCHA) を提案した [1].しかしながら,輪郭抽出
Recognition) 技術の発展により機械攻撃によって破られつ
技術を応用した機械攻撃により破られる可能性が考えら
つある.
この問題を解決するため,以下に挙げるような様々な
1
2
a)
明石工業高等専門学校 電気情報工学科
奈良先端科学技術大学院大学 総合情報基盤センター
e1227@s.akashi.ac.jp
ⓒ 2016 Information Processing Society of Japan
手法が提案されてきた.文字判別型 CAPTCHA を含めた
*1
https://auth.sso.biglobe.ne.jp/mail/
1
Vol.2016-CSEC-75 No.5
2016/12/1
情報処理学会研究報告
IPSJ SIG Technical Report
図 1
表 1
文字判別型 CAPTCHA
既存手法の 3 要件に対する評価
安全性
利便性
自動生成
文字判別型
△
⃝
⃝
Assira
×
⃝
△
4 コマ漫画
×
△
×
2 枚画像
⃝
△
⃝
非現実画像
△
⃝
⃝
図 2 非現実オブジェクトを選択する「非現実画像 CAPTCHA」
各々の手法について,著者が 3 要件への評価を行い,高い
順に ⃝△× で表したものを表 1 に示す.
有の高度な認知能力であることに着目し,2 体の 3D オブ
ジェクト同士をめり込ませて生成した新しいオブジェクト
2.1 Assira
(非現実オブジェクト) をユーザに選択させる非現実画像
「Assira」[4] は,12 枚の犬と猫の画像から,猫をすべて
CAPTCHA を提案した.具体的には,図 2 に示すような
選択させることで,ユーザが人間であるとする CAPTCHA
画像をユーザに出題し,複数の 3D オブジェクトの中に配
である.猫の絵を認知する能力は人間の高度な認知能力で
置された 1 体の非現実オブジェクトをクリックさせる.こ
あり,機械による突破は難しいと考えられていたが,2 ク
れは,3DCG を用いることで出題の自動生成が可能であり,
ラスの分類を得意とする機械学習判別機を用いた攻撃が有
また,常識を持つ人間は容易に正解できるが,機械は人間
効であるとされた [5].
の常識を備えることが困難で,通常と非現実のオブジェク
トを見分け難い.さらに,安全性の検証としてオブジェク
2.2 4 コマ漫画 CAPTCHA
ト同士の境界線が,マージされてできためり込み部分であ
「4 コマ漫画」CAPTCHA[3] は,人間特有の最も高度な
るのか,あるいはめり込んではいないが遮蔽関係にあるの
認知処理である「ユーモアを解する能力」に着目し,ラン
かを機械学習により検出する攻撃手法や,その他総当たり
ダムに並べ替えられた 4 コマ漫画の各コマを,正しい順序
攻撃にも耐性を持ちうるとされた.具体的には,機械学習
に並べ替えさせる手法を用いた.機械はユーモアの理解が
を用いた手法では,あらかじめ入手した大量の出題画像か
困難で,正攻法による突破が簡単ではない.しかし,並べ
ら,
「一部を切り出した画像」と「その部分に正解オブジェ
替え総数が少なく総当たり攻撃 (ブルートフォースアタッ
クト (めり込んでいる部分) が存在するか否か」という教
ク) に脆弱であり,また起承転結が明解な 4 コマ漫画の自
師用データセットを用いて機械学習を行うことで,画像中
動生成が難しいという問題が残る.
に「めり込みが含まれるか否か」を判定する分類器を作り,
めり込んだオブジェクトを検出する攻撃手法を実装した.
2.3 2 枚の画像を重ね合わせた CAPTCHA
その後,この手法では画像中の「めり込んだ部分」と「遮
小林らが提案した,2 枚の画像を重ね合わせた画像の認
蔽関係」を検出できるかどうかを検証した結果,正解率は
識能力を問う CAPTCHA[6] は,重ねられた元の 2 枚の画
69.6%であることから,
「遮蔽関係」と「めり込み」の区別
像が何であるかを 10 種類の大分類に分けられた合計 100
は機械にとって困難であると結論付けた.また,総当たり
個の選択肢から選択する方式である.従って,答えは 4950
攻撃耐性の検証では,CAPTCHA の有するべき総当たり
通り存在し,藤田らが 4096 通り確保できれば十分である
数が 4096 通りであるとし,機械が画像解析によって出題
とした [1] ことを鑑みれば,機械攻撃耐性は高い.また重
画像中のすべてのオブジェクトを抽出できた場合を考えれ
ねられた 2 枚の画像を自動で分離することは困難であるた
ば,オブジェクト数 N に対して,総当たり数は N となる
め,安全性が保たれていると言える.しかし,この「2 枚
ため,4 体のオブジェクトが描画された出題画像を 6 枚出
画像」方式は,検証の結果,人間の回答時間が平均 27.2 秒
題し,全て正解できたユーザを人間とみなせば 46 = 4096
であり,一般的な文字列画像が 10 秒から 18 秒 (論文中の
通り確保できるとした.
値を引用) であることに比べて長くなるという課題が残る.
しかしながら,輪郭抽出技術の応用など,その他の攻撃
手法により,めり込んだオブジェクトが検出できる可能性
2.4 非現実画像 CAPTCHA
が考えられる [2].
藤田らは,「常識からの逸脱を認識する能力」が人間特
ⓒ 2016 Information Processing Society of Japan
2
Vol.2016-CSEC-75 No.5
2016/12/1
情報処理学会研究報告
IPSJ SIG Technical Report
ピクセル数が異なり,やはり背景との関連を見破る必要が
ある.これらより,高い安全性が期待できる.
また,本提案手法では,出題画像は無作為に自動生成さ
れるため,無数の出題が可能であることから,自動生成性
を有すると言える.
一方で,常識を持つ人間は,背景からその状況を容易に
推測することができ,常識的なサイズ感を瞬時に把握する
ことができるため,出題に対する解読の負担が小さくなり,
利便性の確保が期待できる.
以上のことから,提案手法は CAPTCHA に要求される
3 要件を満たすと期待する.
図 3
提案手法による CAPTCHA 画像のイメージ
3. 物体のサイズ感を利用した手法の提案
4. 提案手法の検証
4.1 検証方法
3 種類の「背景」(実装の簡略化のためいずれも閉鎖され
本研究では,藤田らと同様に,常識からの逸脱を認識す
た室内:学校教室,住宅の一室 2 種類) および 11 種類の
る人間特有の能力に着目し,ユーザに物体の常識的なサイ
「物体」(インターネットから 3D モデルデータを取得でき
ズ感を識別させる CAPTCHA 手法を提案する.
たオブジェクトのうち,アニメキャラクターなどのように
普通名詞で表し難いものを除いたオブジェクト:消火器,
3.1 CAPTCHA 画像の生成手法概要
図 3 に示すように,
「背景」3D オブジェクトを基準とし
椅子,机 2 種類,鉢植え,タンス,戸棚 2 種類,ライフル
銃,林檎 2 種類) の 3D オブジェクトを用意した.「物体」
て複数の「物体」3D オブジェクトを宙に浮かせることな
を無作為に 4 種類選択し,そのうち 1 種類を 0.25∼0.75 倍
く (「背景」に接するように) 任意の位置に配置した画像を
に縮小あるいは 1.5∼2 倍に拡大した「正解」オブジェクト
出題し,その中から背景に対して非常識な大きさの「正解」
として,1 種類の「背景」の中に無作為に配置した画像を
オブジェクト (この例では,テーブル上の横転した白いコッ
生成した.その中から 4 種類全ての「物体」の一部あるい
プ) を選択できたユーザを人間とみなす.この時,背景お
は全部が描画されている (隠れていない) 画像を著者が 26
よび配置する物体はデータベースより無作為に選択し,ま
枚選択し出題画像とした.12 人の被験者に対し,各出題画
た,出題の 3DCG 画像を描画する際のカメラ位置は,配置
像について正解だと思う座標をクリックしてもらい,その
した物体が全て映る範囲内で,一意に定めないとする.
回答時間と正誤を記録した.
また,総当たり攻撃への耐性 (安全性) を検討するため
3.2 期待される提案手法の有用性
本提案手法では,ユーザは,背景を基準とした相対的な
大きさとして,配置された物体を認識するため,背景が示
に,各出題画像中に占める正解オブジェクトの描画ピクセ
ル数を計数し,画像サイズに対する割合 (描画割合) を算出
した.
す場所や状況,奥行きを理解し考慮する必要がある.近い
将来には,機械が輪郭抽出や機械学習などにより,配置さ
4.2 検証結果
れた個々の物体の正体をおおむね解明することで,その物
26 枚すべての画像と,正答率の高い 10 枚のみに着目し
体の常識的な大きさを検索エンジンやデータベースから参
た場合のそれぞれについて,本検証で得られた被験者の平
照できる可能性がある.しかし,提案手法では,背景の場
均回答時間および平均正答率を表 2 に示す.同時に,比較
所や,背景自体との物体の位置関係を解読できない限り,
のために,藤田らの手法 (非現実画像) の実験結果の一例
機械による突破は容易ではないと考えられる.例えば,学
(オブジェクト数 4 体の出題画像を 6 枚連続正解させると
校教室内と体育館内では置かれる物体が同じであっても周
した場合),藤田らが指標に用いた文字判別型 CAPTCHA
囲の背景に対するサイズ感は異なり,また同じ体育館内で
についても論文中のデータを引用した.図 4 は,提案手法
あってもカメラの配置によって奥行きが変わり,物体のみ
の正答率が高かった出題 (成功例),図 5 は正答率が低かっ
に着目した攻撃手法では突破できない.背景との関連が把
た出題 (失敗例) を示している.
握できない場合であっても,大きさを把握できた複数の物
体同士で大きさを比較することにより,解答を推測できる
可能性が考えられるが,出題画像には奥行きがあるため,
手前と奥に配置された物体では同じ大きさであっても描画
ⓒ 2016 Information Processing Society of Japan
また,提案手法の描画割合の平均は,3.5%であった.
5. 検証の考察と今後の課題
表 2 に示す通り,提案手法は,出題画像 1 枚当たりの平
3
Vol.2016-CSEC-75 No.5
2016/12/1
情報処理学会研究報告
IPSJ SIG Technical Report
表 2
各手法の平均の回答時間および正答率
回答時間 [s]
正答率 [%]
提案手法
5.4
65.4
提案手法 (上位 10 枚)
3.6
90.8
13.5
88.6
12
92
非現実画像 (6 枚出題時)
文字判別型
均回答時間は 5.4 秒と十分に短いが,正答率が 65.4%と低
く,人間であっても正解できない確率が高いため,正答率
を向上させる対策が必要となる.特に,出題画像の中には
正答率 8.3%という極端に低いものが含まれていたことが,
平均正答率が大きく下げた一因と考えられるが,以下に述
べるようにその出題の正答率が低かった原因を追究するこ
図 4 提案手法の正答率が高かった出題 (成功例)
とで,正答率の高い 10 枚のみを選出することができたと
すれば,回答時間は更に短くなり,正答率は他の手法と同
等になると言える.
正答率が低い出題について,被験者の意見を交えて要因
を挙げれば,机や鉢植えなどサイズ感が一意に定まらない,
銃など親しみがなくサイズ感が分かりにくいなどがあった
ため,これらを解決するオブジェクトを選定する必要があ
る.特に図 5 に示した失敗例は,その両方によるもので
あったと思われる.これを解決する手法として,インター
ネット上からサイズ感を取得する (例えば商品サイトで物
体名を検索することで,掲載されている商品のサイズを目
安として取得する) などが挙げられ,これは今後の課題と
なる.
図 5 提案手法の正答率が低かった出題 (失敗例)
また,本検証では,描画物体数は 4 体に固定し,正解オ
ブジェクトのサイズ変更の倍率は範囲を限定して行ったた
め,これらを変更し,利便性を向上させる検証も今後行う.
安全性について,総当たり攻撃に着目すれば,総当たり
数は 4096 通りを確保すれば十分である [1] が,本検証で
は,描画割合の平均が 3.5%であったため,3 枚出題して全
1
て正解できるかを試せば ( 0.035
)3 ≈ 23000 通り確保できる
1
といえる (2 枚の場合は ( 0.035
)2 ≈ 800 通り).また,本検
証においては正解物体数を 1 体としていたが,これを 3 体
に変えて全て選択するタスクに変更すれば,1 枚の出題で
1
も ( 0.035
)3 ·
1
3!
≈ 3800 通りの総当たり数が期待される.い
CAPTCHA 画像 1 枚のみの出題では十分に確保されにく
く,複数回出題するなどの検討が必要であるという結果を
得た.
今後は,これらの課題の解決とともに,関連研究との比
較実験によって提案手法の優位性を確認し,機械攻撃手法
を実装して耐性の確認を行う.
参考文献
[1]
ずれの手法も同時に利便性の低下が予想されるため,出題
画像作成段階での描画割合の調整や,画像 1 枚当たりの利
便性の向上が,今後の課題となる.
[2]
6. おわりに
本 稿 で は ,物 体 の サ イ ズ 感 を 利 用 し た 3DCG 画 像
[3]
CAPTCHA 手法を提案し,利便性 (回答時間,正答率)
と安全性 (総当たり攻撃耐性) の検証を行った.結果とし
[4]
て,回答時間は平均 5.4 秒,正答率は平均 65.4%であり,
回答時間は既存手法に劣らないことが期待できる一方で,
正答率は使用するオブジェクトを選定する必要性などの
課題を見出した.また,総当たり攻撃への安全性として,
ⓒ 2016 Information Processing Society of Japan
[5]
藤 田 真 浩 ,池 谷 勇 樹 ,可 児 潤 也 ,西 垣 正 勝:非 現 実 画
像 CAPTCHA:常識からの逸脱を利用した 3DCG 画像
CAPTCHA,情報処理学会論文誌,Vol. 56, No. 12, pp.
2324–2336 (2015).
立花聖也,児玉英一郎,王家宏,高田豊雄:3 次元物体認
知能力に着目した変形 3 次元モデル CAPTCHA の提案,
電気関係学会東北支部連合大会講演論文集,Vol. 2014, pp.
231–231 (2014).
可児潤也,鈴木徳一郎,上原章敬,山本匠,西垣正勝:4 コ
マ漫画 CAPTCHA,情報処理学会論文誌,Vol. 54, No. 9,
pp. 2232–2243 (2013).
Elson, J., Douceur, J. R., Howell, J. and Saul, J.: Asirra:
A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization, Proc. of ACM CCS2007, pp. 366–374
(2007).
Golle, P.: Machine Learning Attacks Against the Asirra
CAPTCHA, Proc. of ACM CCS2008, pp. 535–542
(2008).
4
情報処理学会研究報告
IPSJ SIG Technical Report
[6]
Vol.2016-CSEC-75 No.5
2016/12/1
小林司,藤堂洋介,森井昌克:画像認識の困難性を利用し
た CAPTCHA 方式の提案,電子情報通信学会技術研究報
告, LOIS, ライフインテリジェンスとオフィス情報システ
ム, Vol. 110, No. 207, pp. 37–42 (2010).
ⓒ 2016 Information Processing Society of Japan
5