ユーザー間実距離を用いたSNSユーザー評価 手法の

1
JAWS2012 JAWS2012
ユーザー間実距離を用いた SNS ユーザー評価
手法の構築と評価
Evaluation and Development reputation network for SNS user evaluation using
realistic distance
大塚 孝信
名工大グリーン・コンピューティング研究所,名古屋工業大学大学院 情報工学専攻
Takanobu Otsuka
Center for Green Computing, Department of Computer Science and Engineering, Graduate School of Engineering,Nagoya Institute of Technology
otsuka.takanobu@nitech.ac.jp
吉村 卓也
名古屋工業大学大学院 情報工学専攻
Takuya Yoshimura
Department of Computer Science and Engineering, Graduate School of Engineering, Nagoya Institute of Technology
yoshimura.takuya@itolab.nitech.ac.jp
伊藤 孝行
名工大グリーン・コンピューティング研究所,名古屋工業大学大学院 産業戦略工学専攻
Takayuki Ito
Center for Green Computing,School of Techno-Business Administration, Graduate School of Engineering, Nagoya Institute of Technology
ito.takayuki@nitech.ac.jp
keywords: social network, reputation network
Summary
In recent years, SNS services such as Facebook, Google+, and Twitter are becoming very popular. In such
services, many sources of information are posted and shared, although user rankings are hardly considered. In this
paper, we propose an new algorithm to evaluate user’s reputation based on its real physical distance. We consider
various parameters, including user distance, favorites, and the numbers of friends in SNSs in our evaluation technique.
We propose a new reputation network to measure the reliability of SNS information. The following are the features
of our proposed method. 1) Ranking manipulation is difficult by using the geolocation data. 2) Can be to get better
information. 3) Robust against malicious users.
1. は じ め に
ザー評価に対する信頼性を確保するのは困難である.他
にもユーザーの所属コミュニティやメッセージのやりと
近年,Facebook に代表される SNS(Social networking
りによってユーザー同士の信頼度を計る研究も為されて
Site) サービスのユーザー数が大幅に増加している.それ
いるが,パラメータをリンク構造に置き換えているもの
に伴いユーザーの個人情報を抜き取る悪意のあるアプリ
が多く,完全ではない.本研究では情報の偽装を防ぐこ
ケーションや誤った情報が拡散するといった問題が増えて
とを目的とし,位置情報を利用することでユーザー間の
いる.特に震災時には嘘の情報やデマ等が善意のユーザー
距離をパラメータとして付加し,友人数などの SNS 特有
により Twitter 上で拡散され,本当に必要な情報が埋もれ
の各パラメータに重み付けをすることで SNS における
てしまったといった事例も挙げられる.更に,Facebook
ユーザー評価のアルゴリズムを構築するとともに筆者の
ではアプリケーションの利用が盛んであるが,性格診断
になりすましてスパムメッセージを不特定多数に送信す
Facebook データを用いて評価実験を行った.本稿の構成
を以下に示す.まず,2 章で提案するアルゴリズムにつ
いて述べる.そして,3 章において評価実験の結果と得
られた知見について示す. その後,4 章において本研究
と関連する先行研究を紹介する.そして最後に, 5 章で
るといった悪質な事例が多く存在するようになっている.
本稿のまとめと今後の課題を示す.
アプリや占いといった,一般的に多く利用されるアプリ
ケーションを装い,ユーザーの個人情報や友人の情報を
不正に取得するとともに,アプリケーションがユーザー
最近ではユーザーの投稿数やコメント数といった SNS の
アクティビティをリンク構造と考え,ユーザー評価を行
うサービスも存在する [Klout][Qrust].しかし,リンク構
造は SEO 業者 (Search Engine Opitimize) に代表される
ような手法で偽装可能であり,リンク構造のみではユー
JAWS2012 予稿集
2
2. ユーザ間距離を用いた評判ネットワークの
している.ユーザ間の現実的な距離の例を図 2 に示す.
提案
authorities
2·1 基 本 の 考 え 方
web ページのランク付けに用いられる手法を用いてユー
ザーのランク付けを行う場合,web ページのランキング
手法に用いられるリンク要素を置き換えることで応用で
User i
hubs
現実的な距離
User j
authorities
きる.
• 自分の投稿した情報がシェアされた場合(Share)
=出リンク(authorities)
• 他のユーザーによって投稿された情報をシェアす
る場合(ReShare)=入リンク (hubs)
このように考えることが出来る.これを SNS 要素に置き
換えるとユーザ i の情報がユーザ j によりシェアされた
場合はユーザ i によっての権威(authorities)でありユー
ザ j の情報がユーザ i によってシェアされた場合はユー
ザ i にとってのハブ(hubs)となる.ユーザ間の関係を
リンク構造に当てはめると図 1 となる.
情報が j によってシェアされる(authorities)
User i
j の情報をシェアする(hubs)
User j
図 1 ユーザ間の関係
hubs
User i 現実的な距離 User k
図2
ユーザ間の現実的な距離
この場合では現実的な距離が近いユーザ i,k と比較し
ユーザ i,j では現実的な距離が遠いため情報の重みを距
離によって考慮する必要がある.これにより,従来リン
ク/被リンクのみの単純な順位付けであったものをユーザ
間の現実的な距離を考慮することによりリンクの重みを
付加することができ,従来手法と比較した場合にユーザ
評価をより正確に行うことが可能であると考える.
2·3 PageRank を応用したアルゴリズムの提案
Google の PageRank は「多くの良質なページからリン
クされているページは,やはり良質なページである」と
いう再帰的な関係をもとに,全てのページの重要度を判
本研究では代表的な SNS サイトとして Facebook を選
定している.PageRank とは単純な総和公式,その源は
び,評価実験には筆者の Facebook ユーザーデータを用
学術誌の間での論文参照構造の分析にさかのぼる公式で
いることとした.
ある.[Toher 99] ページ Pi の PageRank は,r(Pi ) と書
くが,Pi を指している全てのページの PageRank の総和
2·2 ユーザ間現実的距離の概念
ユーザー間の現実的距離とは SNS サイトのプロフィー
ルに投稿された居住地や投稿情報に付与されたジオタグ
等により情報をやりとりしたユーザー間の現実距離を km
単位で算出することを指す.ユーザ間距離にはユーザー
の居住地同士の現実距離とユーザーの投稿した情報同士
の現実距離の 2 つのパターンが存在すると考える.本ア
ルゴリズムでは HITS や Pagerank などの単純なユーザ関
係に加え,ユーザ間の現実的な距離(Distance)を考慮す
ることとしている.これは単純にユーザ間の現実的距離
が小さい場合は現実世界でユーザ同士が顔なじみである
可能性が高いと仮定しているため,通常の友人関係での
情報のやり取り同様に重要ではない情報をシェアする事
となる.ここで,Bp は,Pi を指すページ(バックリン
ク)の集合であり,|P j| はページ Pj からの出リンクの
個数である.この際,ページ Pi の入リンクとなるペー
ジの PageRank である値 r(Pj ) が未知であるが,反復法
を用いて解決している.すなわち,最初に全てのページ
が同じ PageRank の値(ウェブインデックスにあるペー
ジの個数を n として,1/n)を持つと仮定する.そこで
インデックスの各ページ Pi について r(P i) を計算する.
それらを繰り返し計算することにより算出することがで
きる.計算式を以下に示す.
rk+1 (Pi ) =
∑ rk (pj )
|Pj |
Pj ∈Bpi
が多く想定される.対してユーザ間の現実的な距離が離
この手続きはすべてのページ Pi に対して,r0 (P i) = 1/n
れている場合でも情報をシェアし合う仲と仮定し,現実
として開始され,PageRank の得点が最終的には安定し
的な距離が近い場合に比べ有益な情報が多く存在してい
た値に収束するものと期待され繰り返される.図 3 のよ
ると仮定しているためである.すなわち,SNS 上におい
うな 6 つのインデックスのページを計算した場合次のよ
て同僚や同級生同士の会話のような現実のコミュニケー
うな有向グラフが形成される.
ションの延長でのやりとりと比較し,ユーザー間の実距
ここまでが PageRank の仕組みであるが,DistanceHITS と同じく web ページのランク付けをユーザの評価
離が離れていてもシェアされる情報の価値が高いと仮定
ユーザー間実距離を用いた SNS ユーザー評価手法の構築と評価
3
実名でのコミュニケーションを重視する SNS サービスに
1
2
於いて,友人数はフォローすることで増やすことが可能
であるが被友人数は相手の同意がない限り増やすことが
できないためである.
3
3. 評 価 実 験
3·1 実 験 設 定
評価実験には筆者の Facebook データを用いている.
6
5
データは Facebook の提供する Graph.API を用いており,
ユーザー同士の投稿のシェアの記録を取得することがで
きる.データには 256 人の友人(ノード)と 3568 件の投
稿のシェア/リシェアの情報が記録されている.本研究で
4
はシェアした回数よりも情報がシェアされることに重きを
置くこととし,計算アルゴリズムには Distance-Pagerank
図 3 web ページの有向グラフ
を用いることとした.筆者の Facebook ネットワークを
可視化したものを図 4 に示す.
とした上でユーザ間の現実的な距離情報を付加する.こ
れにより以下計算式となる.
rk+1 (Pi ) =
∑
{
Pj ∈Bpi
rk (pj )
+ αd(Pi , Pj )}
|Pj |
単純に d を足すだけではなく α を挿入することにより,
パラメータの設定を容易としている.パラメータについ
ては評価実験を含めて実施する際に最適な値を模索して
いく.
2·4 SNS の各パラメータと重み付け
SNS には様々な要素が存在する.Facebook における
パラメータを以下に示す.
• 情報を他のユーザーに拡散する - シェア
• 自分の投稿した情報が他のユーザーにより拡散され
る - リシェア
• 自分がフォローしている友人数
• 自分がフォローされている被友人数
• 自分の投稿した情報が他のユーザーにより評価され
る - 被いいね!数
• 友人の投稿した情報を自分が評価する - いいね!数
• 友人のウォールにコメントする - コメント数
• 自分のウォールに友人がコメントする - 被コメント数
上記のように様々なパラメータが存在するが,本研究では
自分の投稿した情報が他のユーザーにより拡散される行
為(リシェア)をリンク構造のパラメータとして用いてい
る.ユーザーによる投稿間の実距離については Facebook
図4
筆者の Facebook ネットワーク
の提供する API では取得できなかったため手作業で追加
している.また,友人数についてはフォローしている友
このデータを用いて独自に開発した計算アプリケーショ
人数のみではなく,フォローされている被友人数を友人
ンを用いてユーザー毎の固有値ベクトルをスコアとして
数で割ることとしている.これにより,友人数が多いだ
算出している.アプリケーションの開発環境及び評価実
けのユーザーより,被友人数が多いユーザーの方が評価
験に使用した計算機環境を以下に示す.
が高くなるよう配慮している.特に Facebook のような
• 使用言語: Java
JAWS2012 予稿集
4
• 使用 IDE: Eclipse Juno ver.4.2
• OS: Mac OSX 10.8
• 使用計算機: MacBookPro 17inch (Early 2011)
• CPU: 2.66Ghz Intel Core i7
• Memory: 8GB 2067 MHz DDR3
アプリケーションは Java によって記述されており,外
部アプリケーションで出力したユーザー情報を.csv 形
Score
スコアが最も高いユーザー
ITジャーナリスト
式で取り込むことでスコア計算を行う.開発したアプリ
ケーションは GUI インターフェースで操作可能であり,
アプリケーションでは通常の Pagerank のみでのスコア,
Distance-Pagerank でのスコア,被友人数/友人数を考慮に
入れたスコアを計算することが可能となっている.更に
Pagerank,Distance-Pagerank と被友人数/友人数の重みを
0 から 1 の範囲で調整することが可能である.計算した
スコアは.csv 形式で書き出しを可能としている.
開発したアプリケーションを図 5 に示す.
User ID
図6
Pagerank のみでの計算結果
計算パラメータの選択
くシェアされていることがわかる.2 位以下については
重みの設定
おおまかに 2 つのグループに分けられており,スコアが
中間的なユーザー層,その他の多くのユーザーがスコア
の低いユーザー層となっており,正規分布に類似した形
となっている.
次は,Distance-Pagerank での計算結果を図 7 に示す.
Score
ユーザーID
スコア
図 5 開発したスコア計算アプリケーション
スコアの変動したユーザー群
3·2 実 験 結 果
筆者の Facebook データを用いて実際に計算した結果
を示す.以下の 3 種類について計算を行っている.
(1) Pagerank のみで計算
(2) Distance-Pagerank での計算
(3) Distance-Pagerank と被友人数/被友人数での計算
User ID
計算には開発した計算アプリケーションを使用しており,
縦軸はユーザーのスコア,横軸をユーザー ID としてい
る.散布図の作成には計算アプリケーションによって計
図7
Distance-Pagerank の計算結果
算されたスコアを R を用いてグラフ化している.
図 6 に Pagerank のみでの計算結果を示す. Pagerank
図 6 に示す Pagerank のみの結果と比較して,上位 3 位
のみでの計算結果では投稿がシェアされることの多いア
以下に変動が見られる.投稿間の実距離をパラメータと
クティブユーザーの評価が高いことが分かる.筆者のネッ
して用いることで投稿のシェアだけではなく,実距離が
トワークで最も高いユーザーは IT ジャーナリスト,2 位
離れたユーザーから投稿をシェアされることでスコアが
のユーザーは IT エバンジェリストであるため,投稿が多
向上していることが分かる.また,下位ユーザーに関し
ユーザー間実距離を用いた SNS ユーザー評価手法の構築と評価
ては近くの友人や学校の同級生といった現実世界の延長
5
(3) 悪意のあるユーザーに対して強固である.
としてコミュニケーションを行っているユーザーのスコ
良いユーザーからの情報を優先的に表示させることで
アが下がっていることが分かる.距離をパラメータとし
悪意のあるアプリケーション等の拡散を防止できる.
て挿入することでスコアが中間的なユーザー層の順位が
上記特徴はリンク構造のみの評価ではなく情報間の実距
大きく入れ替わっており,実距離の遠いユーザーからリ
離を反映することにより実現できる.
シェアされるユーザーのスコアが向上していることが分
かる.
Distance-Pagerank と友人数での計算結果を図 8 に示
す. 図 7 の Distance-Pagerank の結果と比較してあまり
4. 関 連 研 究
4·1 SNS のユーザー評価に関する研究
web のコミュニケーションは年々増加しており Facebook
や Google+に代表される SNS サービスで活発なコミュニ
Score
ケーションが行われている.しかし,さまざまな意見が書
き込まれるものの,有用な情報のみを見つけることが困
難である.また,偽の情報が拡散したり,悪意のあるアプ
リケーションを実行させるといった問題が挙げられてい
る.オンラインオークションや web ページの評価をする
ために数多くの研究がなされている.また,SNS におけ
る「ソーシャルな強さ」を計る研究も数多くある.オンラ
インオークションでは web ページ評価手法である HITS
を応用した ANT(Auction Network Trust) という研究があ
り,web ページのリンク構造をユーザーの取引情報に当
てはめ,信頼度の高いユーザーをランキングすることを
目的としている.[小林 09] この研究は SNS サービスに
スコアの変動したユーザー群
User ID
も応用でき,取引ではなくユーザー間のコメントや友人
関係に当てはめることでユーザー評価ができると考えて
いる.しかし,コメント数や友人数は単純なスクリプト
図8
Distance-Pagerank と友人数での計算結果
により簡単に偽装が可能であることから“ 偽装しづらい
“ パラメータを挿入する必要があると考えている.また,
変化はないが,一部の下位ユーザーのスコアが変動して
いることが分かる.これは被友人数を友人数で割った後
web ページの評価手法には PageRank や HITS が多く用
いられている.HITS は web ページへの authorities, hubs
にパラメータとして挿入しているため,機械的に友人数
のリンク構造によりページの固有ベクトルを求め,その
を増やしているユーザー,すなわち友人数のみ極端に多
値によりページ評価を行っている.Pagerank は多くの良
く被友人数が少ないユーザーが存在しないため,あまり
質なページからリンクされているページは良質であると
変化が見られないものと考える.
いう考え方を用いている.この考え方は論文評価のシス
テムが発端であり,多くの良質な論文から引用される論
3·3 考
察
文は良い論文であるという考え方を web ページに応用し
評価実験により,実際の Facebook データと現実的な距
たものである.
.これらの考え方を SNS のユーザー評価
離をユーザー評価に結びつけることでリンク構造だけで
に当てはめた場合,HITS はコメント回数や友人関係な
はない評価手法を提案した.本手法の特徴を以下に示す.
どのリンク構造で表すことが出来る.PageRank の場合は
(1) ジオロケーション情報を用いるためランキング偽
装に対して強い.
SNS における「良質なユーザー」をどう決定するのかと
いう問題が残る.PageRank の計算式を読み解くと良質
シェアする/シェアされただけのリンク構造による評
なページの定義は多くのページにリンクされているかど
価では自動スクリプトなどにより故意に評価を上げ
うかを主なパラメータとしているため,先ほど述べたよ
ることが出来るがユーザーのジオロケーションに紐
うに単純なスクリプトによりリンク構造の偽装に遭遇し
付いた情報間の距離は偽装しにくい
やすいと考える.例えば,リンク構造を利用した口コミ
(2) より良い情報を手に入れることができる.
評価を行う手法 [小倉 08] などもある.また,web ページ
いたずらに情報のやり取りが多いだけではなく距離
とは異なり SNS 特有の友人同士のアクティビティを利用
の離れているユーザーにも投稿がシェアされている
しソーシャルな繋がりを重視した研究も数多く為されて
という関係のほうが評価が高くなるため,より有益
いる.SNS サービスにはコミュニティという概念があり,
な情報の入手が可能となる.
同じ学校や同じ職場,同じクラブ活動など現実世界のコ
JAWS2012 予稿集
6
ミュニティと同じものや,現実世界とは関係がない趣味,
連した任意得点を作るのにハイパーリンク構造を用いて
嗜好のコミュニティといったものがある.これらソーシャ
いる.しかし HITS と PageRank には重要な違いがある
ルな繋がりがどのような要素によって決定しているかを
PageRank は各ページに対して任意得点を 1 つ作成する
が,HITS は 2 つ作成する.HITS は web ページを権威
(authorities)とハブ (hubs)として考える.権威は沢山の
研究したものがある. この研究によるとソーシャルな繋が
りはユーザー同士の親密が最も深く,それらは訪問回数,
友人数, 友人間のメッセージのやりとりにより決定される
入リンクを持つページであり,ハブは沢山の出リンクを
とあり [Eric 09],必ずしも同一コミュニティにいるから
持つページである.権威とハブは次の巡回的な主張が成
親密とは限らない.しかし,活発な情報交換や訪問回数
り立つとき良い(good)と言われている.つまり,良い
では友人同士のソーシャルな強さ (Social Strength) は計
権威たちは良いハブたちによって指されており,良いハ
ることが出来るが,友人以外の有益な情報は得にくいと
ブたちは良い権威たちを示している.また HITS にはい
考える.また,本研究に類似した内容でユーザー間の距離
くつかの問題点と [Mui 03],多くの改良法が提案されて
をひとつのパラメータとして考えた研究もある.[Jackson
いる.[Li 02][手塚 06] [Bharat 98] これを SNS 要素に置き
08][Bloch 07] この研究はユーザーをノードとして捉え,
換えるとユーザ i の情報がユーザ j によりシェアされた場
ネットワーク・トポロジーでのパス長を距離と考えたも
合はユーザ i によっての権威(authorities)でありユーザ
のである.例えば友人の友人からの情報をリシェアした
場合は友人の情報をシェアするよりも有益という考え方
j の情報がユーザ i によってシェアされた場合はユーザ i
にとってのハブ(hubs)となる.Google の PageRank は
である.パス長という考え方は新しいが web ページなど
「多くの良質なページからリンクされているページは,や
のリンク構造による評価ではない SNS ならではの考え方
はり良質なページである」という再帰的な関係をもとに,
でユーザ評価をできないか考えた.更に,友人の友人は
全てのページの重要度を判定している.PageRank とは
友人であるという考え方に基づき,SNS のグループ構造
単純な総和公式,その源は学術誌の間での論文参照構造
を可視化した研究 [Adams 12],や VCG ネットワークを
の分析にさかのぼる公式である.[Schillo 00] ページ Pi の
用いて信頼度を測る研究 [Zhang 12] もある.これらの考
げるといった方法は SEO(Search Engene Optimization)
PageRank は,r(Pi ) と書くが,Pi を指している全ての
ページの PageRank の総和となる.ここで,Bp は,Pi を
指すページ(バックリンク)の集合であり,|Pj | はペー
ジ Pj からの出リンクの個数である.この際,ページ Pi
の入リンクとなるページの PageRank である値 r(Pj ) が
会社により多く行われている.これにより,アフィリエ
未知であるが,反復法を用いて解決している.すなわち,
イトを目的とした web サイトのような内容もないページ
最初に全てのページが同じ PageRank の値(ウェブイン
がランキング上位に来ることでユーザーにとって必要な
デックスにあるページの個数を n として,1 = n)を持つ
情報が手に入りにくくなる.よって SNS の評価手法には
と仮定する.そこでインデックスの各ページ Pi について
ユーザー間の実距離を用いることで従来とは違う評価手
r(P i) を計算する.それらを繰り返し計算することによ
法を提案する.特にスマートデバイスが普及してきた現
り算出することができる.この手続きはすべてのページ
在にとってはジオロケーション情報は容易に取得できる.
Pi に対して,r0(P i) = 1 = n として開始され,PageRank
ジオロケーションは端末側を Hack しない限りは偽装が
の得点が最終的には安定した値に収束するものと期待さ
困難であることからリンク構造と比較して高い信頼度を
れ繰り返される.web ページのランキング手法について
持つ.本研究ではユーザーのジオロケーションを用いて
は多くのサービスで HITS,Pagerank が用いられており,
ユーザー間の実距離を用いた評価手法を提案する.
リンク構造による評価により検索した際の表示順序を決
え方を SNS サービスに適用した場合,リンク構造のみに
評価を頼ることになるため評価の詐称がしやすいとも言
える.リンク構造を悪用し,web ページの検索順位を上
定している.
4·2 Web ページのランキング手法
4·3 オークションサイトにおけるユーザー評価手法
Yahoo!や Google に代表される大手検索サイトをはじめ
として web ページの信頼性を計る指針として HITS,PageRank
オークションなどではさまざまな手法を用いてユーザ
などが用いられている.これらは主にページ同士のリン
評価を行っている.一般に,eBay,Yahoo! Auctions,な
ク関係に評価を依存しており,単純なスコアリングに基
どの,オンラインのオークションやショップで使われる評
づいた評価とも言える.そのため,SNS におけるユー
判メカニズムは,単純なスコアリングメカニズム(sim-
ザ評価を行い「信頼」を担保するという意味でリンク関
plescoring mechanism)である.単純なスコアリングメ
係のみを用いるのみでは評価が困難である.リンク構造
カニズムでは,単純な数値とその合計を用いて,買い手
の評価アルゴリズムにおいて,代表的なものに HITS と
が売り手を評価したり,売り手が買い手を評価したりす
PageRank がある.HITS とは Hypertext Induced Topic
Search の略であり,クラインバーグらによって 1998 年
に発明された.HITS は PageRank 同様 web ページに関
る.単純なスコアリングメカニズムの欠点については次
節 で説明する.評判メカニズム(reputation mechanism)
は,マルチエージェントシステム,計算機科学,ゲーム
ユーザー間実距離を用いた SNS ユーザー評価手法の構築と評価
7
理論,生物学など,広い範囲で研究されている.特にマ
益な投稿を数多くしているユーザをランク付けし,ラン
ルチエージェントシステムの分野では多くの先行研究が
ク上位のユーザーに対しては有害情報のチェックを省くこ
ある.文献 [Mui 03][Mui 02] では,評判メカニズムを
ととし,他のユーザの投稿情報のチェックに処理能力を割
幅広く調査し,明快な階層型の分類を提案している.ま
り当てるといったことも考えられる.ユーザ同士の信頼
ず評判メカニズムは,個人型(Individual)とグループ型
度を評価する評判ネットワークについてはいくつかの研
(Group)に分類される.本論文で注目する個人型は,さ
究がある.ユーザの属するコミュニティによりソーシャル
らに直接型(Direct)と間接型(Indirect)の評判システ
深度(Social Tie) を算出する方法 [Eric 09] やユーザ間の
ムに分類される.直接型の評判メカニズムはさらに,観
関係を VCG メカニズムによりトラストネットワークとし
察型(observed)と偶発型(encounter-derived)に分類さ
て算出する方法 [Zhang 12] などが挙げられる.これらは
れる.間接型の評判メカニズムは,
(事前)確率型(prior-
ユーザーの友人関係や所属コミュニティによってユーザ
derived),グループ型(group-derived),および伝搬型
のランク付けを行うアルゴリズムである我々はユーザー
(propagated)に分類される.
.オンラインのオークション
間の実際の距離をパラメータとして扱うことでユーザー
やショップの評判メカニズムはほとんどが,個人型,直接
のランク付の正確さに貢献できないか考えた.
型,かつ観察型,もしくは,個人型,直接型,かつ偶発
型に分類される.間接型でかつ伝搬型の間接的評判メカ
5. ま
と
め
ニズムを構築する研究 [Schillo 00] [Sabater 02] [Yu 02]
もある.これらの研究では,評判情報がエージェントか
らエージェントに渡されながら伝搬する.これらの評判
メカニズムの研究の特徴は,自ら仮想的なエージェント
本論文では実際に Facebook のユーザー関係をネット
ワーク構造として捉え,既存の web ページの評価手法を
用いた.これによりリンク構造だけの評価手法では故意
の社会を作り,その中で評判メカニズムを構築し解析し
的なスクリプトによるランキングの改ざんが可能である
ている web ページをランキングするメカニズムも,web
と考えている.しかし,ジオロケーションを外部から操
ページの評判メカニズムとして見る事ができる.さらに,
作できない状態での情報間実距離を用いたランキング手
インターネットオークションに関しては,その他の様々
法においては悪意のあるユーザーによるランキング操作
な観点から研究が行われている.インターネットオーク
が行いにくい.SNS サービスではユーザー数が増えるに
ションでは詐欺行為が問題になっており,オークションに
つれ悪意のあるユーザーによる投稿を排除したりウイル
内包されているデータから詐欺者を同定しようという研
スの埋め込まれたアプリケーションによる被害が多く報
究が多い.代表的なものとして,オークションでの評価
告されるようになってきている.そのため,ユーザー間
時間に着目したコミュニティ抽出 [Pandit 07] や,オーク
距離をパラメータとして捉えることによりユーザーのラ
ション内の取引関係から確率推論を用いて特異なパター
ンク付けの確実度を計る手法について提案した.今後は
ンを抽出し,詐欺者を同定する研究 [Pandit 07] などがあ
SNS 特有のコメント数,いいね!数といったパラメータ
に関しても実装していく.特に Facebook やでは外部サイ
る.また,インターネットオークションにおけるユーザ
の信頼を解析した研究も行われている.
トとの連携でいいね!数を追加することがごく気軽に可
能なため,パラメータとしては低く扱うべきだと感じて
4·4 SNS におけるユーザー評価の重要性
いる.そのため,適切な重みを付けた上で総合的に評価
SNS においてはデマ情報の拡散などによりユーザーに
することを目標としているまた,現状では距離情報の取
とって有益ではない情報が多く伝搬されている.Facebook
得が自動化されていないため FacebookAPI より自動で取
に代表されるような SNS 内でのアプリケーション連携
得する機能を実装する必要がある.更に,計算の過程で
をもつサービスでは,悪意のあるアプリケーション情報
判明した結果として少ないユーザー数で計算した場合,1
が伝搬されることにより個人情報の漏えいや,アカウン
つのリシェアによりスコアが大きく左右されるといった
ト乗っ取り等が起きている.また,盗まれたアカウント
問題もある.この問題は Pagerank,HITS 共にある問題
情報により自分自身が他のユーザへスパムメールを送る
であり,全てのページ(リシェア)の総和により計算を行
などといった事例もある.そのため,情報の信頼度を確
うため,リシェアの総数が少ない場合はリシェアの数が
認するためにユーザのランク付け手法が重要だと考えて
少し変動しただけで結果が大きく変わってしまう.筆者
いる.
一人のデータのみではユーザー数に限界があるため,他
現状の多くのサービスではユーザーにより投稿された
のユーザーデータを入手することで大規模なデータを用
情報をスパム解析ソフトウェアによる解析や目視による
いることでより多くの実験を行うこととしている.この
チェックをすることによって有害な情報を抽出している.
手法を用いることによりユーザランクによる情報の信頼
しかし,それらの手法では近年のユーザー数の増加には
度を計ることができる.また,SNS サービスにあるさまざ
対応できておらず,実際にも全ての有害な情報を排除で
まなパラメータを組み合わせることで評価手法として確
きているとは言い難い.これらの手法を用いる際にも有
立したい.SNS サービスにはさまざまなパラメータが存
JAWS2012 予稿集
8
在しており,SNS サービスによって異なることが多いが,
各パラメータについて SNS 毎にカテゴリを設定し定量化
することとしている.今後は FacebookAPI からの距離の
取得を自動化することで Facebook アプリケーションと
しての開発を進めるとともに他ユーザーのデータを取得
することで大規模な実験を行い,評価していく.
謝
辞
本研究の一部は,内閣府の先端研究助成基金助成金(最
先端・次世代研究開発プログラム)により助成を受けて
いる.
♦ 参 考 文 献 ♦
[Klout] Klout.inc,”Discover and be recognized for how you influence
the world.”,http://klout.com/home.
[Qrust] Overtex Group,”SNS 影響力スコアリング解析サービス
Qrust.”,http://qru.st/.
[小倉 08] 小倉 達矢, 宍戸 開, 今藤 紀子, 山口 実靖, 淺谷 耕一,”
レビューサイトにおける良質なレビューの特性とそれを考慮し
た評判情報の抽出に関する一考察”, DEWS2008-Data Engineering
Workshop,2008.
[小林 09] 小林 真雄, 安藤 哲志, 伊藤 孝行,”Auction Network Trust
: 電子商取引ネットワークにおけるユーザ間の関係を利用した評
判メカニズム”, 電子情報通信学会論文誌,Vol.J92-D, No.11.2009.
[Taher 99] Taher H. Haveliwala, “ Efficient Computation of PageRank, ”1999 Stanford Technical Report.
[Brin 98] S. Brin and L. Page, “ The anatomy of a large-scale hyper
textual web search engine, ” WWW7/Computer Networks, vol.30,
no.1-7), pp. 107-117, 1998.
[Li 02] L. Li, Y. Shang, and W. Zhang, “ Improvement of hits-based
algorithms on web documents, ” Proceedings of WWW2002, pp.
527-535, 2002.
[Eric 09] Eric Gilbert and Karrie Karahalios,“ Predicting Tie Strength
With Social Media, ” Proceedings of the 27th international conference on human factors in computing systems, 2009.
[Josep 02] Josep M. Pujoi, Ramon Snguesa, and Jordi Delgado,“ Extracting reputation in multi Agent Systems by Means of Social Network Topology, ” Proceedings of the first international joint conference on Autonomous agents and multiagent systems, pp. 467-474,
2002.
[Amy 06] Amy N. Langville and Carl D. Meyer.“Google’s PageRank
and Beyond: The Science of Search Engine Rankings, ” Princeton
University Press, June 2006.
[Toher 99] Taher H. Haveliwala, “ Efficient Computation of PageRank, ”1999 Stanford Technical Report.
[Bloch 07] Bloch,F.and M.O.Jacsonjacson,”The Formation of Networks with Transfers among Players”,Journal of Economic Theory.2007
[Bharat 98] K. Bharat and M. R. Henzinger, “ Improved algorithms
for topic distillation in a hyperlinked environment, ”Proceedings of
the 21st Annual International ACM SIGIR Conference on Research
and Development in Information Retrieval, pp. 104-111, 1998.
[Kleinberg 99] J. Kleinberg,“ Authoritative sources in a hyperlinked
environment, ”Journal of the ACM, vol. 46, no. 5, 1999.
[Rensnick 02] P. Resnick and R. Zeckhauser,“ Trust among strangers
in internet transactions: Empirical analysis of ebayfs reputation system, ” The Economics of the Internet and E-Commerce, vol.11, pp.
127-157, 2002.
[Mui 03] L. Mui,“ Notions of reputation in multi-agents systems: A
review, ”PhD thesis, Massachusetts Institute of Technology, 2003.
[Mui 02] L. Mui, A. Halberstadt, and M. Mohtashemi, “ Notions of
reputation in multi-agent systems A review, ”Proceedings of the 1st
International Joint Conference on Autonomous Agents and MultiAgent Systems (AAMAS 2002), pp. 280-287, 2002.
[Schillo 00] M. Schillo, P. Funk, and M. Rovatsos, “ Using trust for
detecting deceitful agents in artificial societies,“ Applied Artificial
Intelligence, vol.14, no.8, pp.825-848,2000.
[Sabater 02] J. Sabater and C. Sierra, “ Reputation and social network analysis in multi-agent systems, ” Proceedings of the first international joint conference on autonomous agents and multiagent
systems, pp. 475-482, 2002.
[Yu 02] B. Yu and M.P. Singh, “ An evidential model of distributed
reputation management, ” Proceedings of the 1st International Joint
Conference on Autonomous Agents and Multi-Agent Systems (AAMAS 2002), pp. 294-301, 2002.
[Zhang 12] Haoqi Zhang, Edith Law, Robert C. Miller, Krzysztof Z.
Gajos, David C. Parkes, and Eric Horvitz, “ Human Computation
Tasks with Global Constraints: A Case Study, ” Proceedings of the
ACM Conference on Human Factors in Computing, 2012.
[Nongyui 04] Z. Gy.Nongyi, H. Garcia-Molina, and J. Pedersen,
“ Combating web spam with trust rank, ” Proceedings of the Thirtieth international conference on very large data bases, pp. 576-587,
VLDB Endowment, 2004.
[Pandit 07] Shashank Pandit, Duen Horng Chau, Samuel Wang, and
Christos Faloutsos, “ Netprobe: a fast and scalable system for fraud
detection in online auction networks, ”Proceedings of the 16th international conference on World Wide Web (WWW’07), pp. 124-132,
2007.
[Pandit 07] S. Pandit, D.H. Chau, S. Wang, and C. Faloutsos, “ Netprobe: A fast and scalable system for fraud detection in online auction networks, ”Proceedings of the 16th international conference on
World Wide Web (WWW’07), pp. 201-210, 2007.
[手塚 06] 手塚 友,浅野 泰仁,西関 隆夫,
“ 現在の web における
HITS について,”電子情報通信学会技術研究報告. COMP, コン
ピュテーション,vol.105,no.679,2006.
[Jackson 08] Matthew O.Jackson, ”SOCIAL AND ECONOMIC
NETWORKS”,Princeton University Press,2008.
[Adams 12] Paul Adams,”GROUPED:How small groups of friends
are key to influence on the social web”,New Riders,2012.