特集 学生の研究活動報告−国内学会大会・国際会議参加記 13 言語理解とコミュニケーション研究会に参加して 梅 本 顕 嗣 Kenji UMEMOTO 情報メディア学科 4年 こうした心豊かなコミュニケーションでは匿名で 1.はじめに あることが重要です.匿名のコミュニケーションで 私は 2010 年 7 月 22 日から 23 日に宮城県の東北 あることで,照れ,恥ずかしさ,評判などを気にし 大学で開催された言語理解とコミュニケーション研 ないで質問,相談,回答,議論などをすることがで 究会で発表を行いました.この学会で,私は「投稿 きるからです.しかし,匿名性を悪用して,Q&A 履歴と文体の類似判定を利用した Q&A サイトにお サイトにおけるコミュニケーションを妨害しようと けるなりすましユーザの検出」という題目で発表を するユーザもいます.したがって,Q&A サイトに 行いました. おける心豊かなコミュニケーションを促進するため には匿名性を悪用するユーザを検出することが重要 2.Q&A サイトでコミュニケーションを 操作しようとするユーザ です.本研究では,複数のアカウントを用いて質問 とその回答を繰り返し投稿し,回答者としての自分 Google などのサーチエンジンによって,インタ の評価を操作しようとするユーザを,その投稿履歴 ーネット中の情報に誰でもアクセスできる環境が整 と文体の類似判定を手がかりに検出する方法を提案 いつつあります.しかし,検索用語を 1 つ 1 つ考え します. てサーチエンジンで調べていく検索方法は,誰にと っても簡単なわけではありません.調べる対象につ いて十分な知識をもっていない人や,情報の取り扱 3.複数のアカウントを用いて自分の評価を 操作しようとするユーザの検出 いになれていない人にとっては,Yahoo! 知恵袋な 本研究では投稿履歴と文体の特徴を手がかりに どの Q&A サイトで質問する方が簡単で,しかもよ 異常な投稿を行っているユーザペアの検出 い内容の回答を得られることも多いです. 検出されたユーザペア間での文体の類似判定 サーチエンジンを利用するより簡単に情報を Q& を行い,複数のアカウントを用いて自分の評価を操 A サイトで収集できるのは,質問に対して回答を 作しようとするユーザを検出します.図 1 に提案方 積極的に投稿しようとするユーザがいるからです. 法の概要を示します. 見ず知らずの他人を繰り返し助けようとする回答者 が多いのは,Q&A サイトで「助けてほしい」と考 えている人と「誰かのためになれたら」と考えてい る人が出会い,心豊かなコミュニケーションが行わ れ,その経験がユーザたちを励まし,新たなコミュ ニケーションに関わることを促しているのではない かと考えます. ― 90 ― 図1 複数のアカウントを用いて回答者とし て自分の評価を操作しようとするユー ザの検出方法 3. 1 異常な投稿を行っているユーザペアの検出 4.実験結果と検討 質問者と回答者の間で異常な投稿,すなわち, 提案手法の有効性を評価するために,Yahoo! 知 (1)ある回答者が特定の質問者の質問に対して異 恵袋の「パソコン,周辺機器」「病気,症状,ヘル 常に多くの回答を投稿する (2)ある質問者が特定の回答者から異常に多くの スケア」「政治,社会問題」のカテゴリに回答を投 稿したすべてのユーザを対象に,1 人で複数のアカ 回答を受け取る (3)ある質問者が特定の回答者に対して以上に多 ウントを利用して質問とその回答の投稿を繰り返 し,回答者としての自分の評価を操作しようとして くのベストアンサーを与える いるユーザを検出する実験を行ない,その結果につ を行っていないかどうかを,判定します. この 3 つを質問と回答をやりとりしたすべてのユ いて検討しました. ーザペアに適用して,3 つすべてが二項検定で棄却 今回の実験では,20 組のユーザペアが異常な投 されたユーザペアを異常な投稿を行なったユーザペ 稿を行っていると検出され,そのうちの 6 組は文体 アとして取り出します. が類似していると判定されました.また,この 6 組 以外でも, 3. 2 複数のカテゴリで異常な投稿を行っている 文体の類似判定 FAQ サイトの質疑応答と酷似している 異常な投稿を起こったユーザペアの回答の文体が 類似しているかを判定する分類器を作成しました. 質問が投稿されてから回答が投稿されるまでの 図 2 にこの分類器の精度をに示します.このとき, 時間が異常に短い 対象ユーザの回答から無作為に選んだ n 件 というような,疑わしいユーザペアもいました.こ 対象ユーザ以外のユーザの回答から無作為に選 れらのことを総合して検討した結果,異常な投稿を んだ n 件 行っていると検出した 20 組のうち,14 組を疑わし の合計 2 n 件の回答(n=50, 100, 150)から構成さ いユーザペアと判定しました.したがって,異常な れる 3 種類の学習データを作成しました.この学習 投稿の検出は疑わしいユーザの検出には有効でし には最大エントロピー法による maxent を用いまし た.一方,疑わしいユーザペア 14 組のうち文体が た.ここで,分類器によって判定された回答件数が 類似していると判定できたのは 6 組だけでした.し 二項検定で棄却されたとき,このユーザペアの文体 たがって,文体の類似判定の有効性は限定的で,1 は類似すると判定します. 人のユーザが複数のアカウントを利用して投稿した 回答の文体は類似するという点で見落としがないか 検討します. 5.おわりに 今回の学会発表を通して,発表のリズムや間合 い,質疑応答など,まだまだ改善しなければならな い課題がたくさん見つかりました.この経験を生か して,よりよい発表が出来るように努力したいと思 います.最後に,今回の発表を行うにあたり熱心に ご指導くださった渡辺先生や,発表練習におつきあ 図2 ユーザ分類器の平均分類制度 いくださった渡辺研究室の方々には感謝致します. ― 91 ―
© Copyright 2025 Paperzz