言語理解とコミュニケーション研究会に参加して

特集
学生の研究活動報告−国内学会大会・国際会議参加記 13
言語理解とコミュニケーション研究会に参加して
梅 本 顕 嗣
Kenji UMEMOTO
情報メディア学科
4年
こうした心豊かなコミュニケーションでは匿名で
1.はじめに
あることが重要です.匿名のコミュニケーションで
私は 2010 年 7 月 22 日から 23 日に宮城県の東北
あることで,照れ,恥ずかしさ,評判などを気にし
大学で開催された言語理解とコミュニケーション研
ないで質問,相談,回答,議論などをすることがで
究会で発表を行いました.この学会で,私は「投稿
きるからです.しかし,匿名性を悪用して,Q&A
履歴と文体の類似判定を利用した Q&A サイトにお
サイトにおけるコミュニケーションを妨害しようと
けるなりすましユーザの検出」という題目で発表を
するユーザもいます.したがって,Q&A サイトに
行いました.
おける心豊かなコミュニケーションを促進するため
には匿名性を悪用するユーザを検出することが重要
2.Q&A サイトでコミュニケーションを
操作しようとするユーザ
です.本研究では,複数のアカウントを用いて質問
とその回答を繰り返し投稿し,回答者としての自分
Google などのサーチエンジンによって,インタ
の評価を操作しようとするユーザを,その投稿履歴
ーネット中の情報に誰でもアクセスできる環境が整
と文体の類似判定を手がかりに検出する方法を提案
いつつあります.しかし,検索用語を 1 つ 1 つ考え
します.
てサーチエンジンで調べていく検索方法は,誰にと
っても簡単なわけではありません.調べる対象につ
いて十分な知識をもっていない人や,情報の取り扱
3.複数のアカウントを用いて自分の評価を
操作しようとするユーザの検出
いになれていない人にとっては,Yahoo! 知恵袋な
本研究では投稿履歴と文体の特徴を手がかりに
どの Q&A サイトで質問する方が簡単で,しかもよ
異常な投稿を行っているユーザペアの検出
い内容の回答を得られることも多いです.
検出されたユーザペア間での文体の類似判定
サーチエンジンを利用するより簡単に情報を Q&
を行い,複数のアカウントを用いて自分の評価を操
A サイトで収集できるのは,質問に対して回答を
作しようとするユーザを検出します.図 1 に提案方
積極的に投稿しようとするユーザがいるからです.
法の概要を示します.
見ず知らずの他人を繰り返し助けようとする回答者
が多いのは,Q&A サイトで「助けてほしい」と考
えている人と「誰かのためになれたら」と考えてい
る人が出会い,心豊かなコミュニケーションが行わ
れ,その経験がユーザたちを励まし,新たなコミュ
ニケーションに関わることを促しているのではない
かと考えます.
― 90 ―
図1
複数のアカウントを用いて回答者とし
て自分の評価を操作しようとするユー
ザの検出方法
3. 1
異常な投稿を行っているユーザペアの検出
4.実験結果と検討
質問者と回答者の間で異常な投稿,すなわち,
提案手法の有効性を評価するために,Yahoo! 知
(1)ある回答者が特定の質問者の質問に対して異
恵袋の「パソコン,周辺機器」「病気,症状,ヘル
常に多くの回答を投稿する
(2)ある質問者が特定の回答者から異常に多くの
スケア」「政治,社会問題」のカテゴリに回答を投
稿したすべてのユーザを対象に,1 人で複数のアカ
回答を受け取る
(3)ある質問者が特定の回答者に対して以上に多
ウントを利用して質問とその回答の投稿を繰り返
し,回答者としての自分の評価を操作しようとして
くのベストアンサーを与える
いるユーザを検出する実験を行ない,その結果につ
を行っていないかどうかを,判定します.
この 3 つを質問と回答をやりとりしたすべてのユ
いて検討しました.
ーザペアに適用して,3 つすべてが二項検定で棄却
今回の実験では,20 組のユーザペアが異常な投
されたユーザペアを異常な投稿を行なったユーザペ
稿を行っていると検出され,そのうちの 6 組は文体
アとして取り出します.
が類似していると判定されました.また,この 6 組
以外でも,
3. 2
複数のカテゴリで異常な投稿を行っている
文体の類似判定
FAQ サイトの質疑応答と酷似している
異常な投稿を起こったユーザペアの回答の文体が
類似しているかを判定する分類器を作成しました.
質問が投稿されてから回答が投稿されるまでの
図 2 にこの分類器の精度をに示します.このとき,
時間が異常に短い
対象ユーザの回答から無作為に選んだ n 件
というような,疑わしいユーザペアもいました.こ
対象ユーザ以外のユーザの回答から無作為に選
れらのことを総合して検討した結果,異常な投稿を
んだ n 件
行っていると検出した 20 組のうち,14 組を疑わし
の合計 2 n 件の回答(n=50, 100, 150)から構成さ
いユーザペアと判定しました.したがって,異常な
れる 3 種類の学習データを作成しました.この学習
投稿の検出は疑わしいユーザの検出には有効でし
には最大エントロピー法による maxent を用いまし
た.一方,疑わしいユーザペア 14 組のうち文体が
た.ここで,分類器によって判定された回答件数が
類似していると判定できたのは 6 組だけでした.し
二項検定で棄却されたとき,このユーザペアの文体
たがって,文体の類似判定の有効性は限定的で,1
は類似すると判定します.
人のユーザが複数のアカウントを利用して投稿した
回答の文体は類似するという点で見落としがないか
検討します.
5.おわりに
今回の学会発表を通して,発表のリズムや間合
い,質疑応答など,まだまだ改善しなければならな
い課題がたくさん見つかりました.この経験を生か
して,よりよい発表が出来るように努力したいと思
います.最後に,今回の発表を行うにあたり熱心に
ご指導くださった渡辺先生や,発表練習におつきあ
図2
ユーザ分類器の平均分類制度
いくださった渡辺研究室の方々には感謝致します.
― 91 ―