計算機科学的意思決定論 第7回 システム情報科学研究院・情報学部門 瀧本 英二 http://www.i.kyushu-u.ac.jp/~eiji ウェブページの重要性 検索エンジンの形式化 入力:キーワード 出力:ウェブページへのリンクの系列. ただし,各リンク先は入力キーワードを 含む.重要なページほど上位に表示する. このままでは,解の品質に関する基準が 与えられていないので,問題の形式化としては不十分 ウェブページの重要性を表す指標が必要 ウェブページの重要性 Google の場合: PageRank (200以上ある指標の1つ) PageRank の考え方 • ウェブ全体のリンク構造だけで決める • 重要なページからたくさんリンクを張られて いるページは重要 P2 P3 P1 P5 P4 どのページが 最も重要? PageRank の定義 (ver 0.1) r(P) = Q2L(→P) r(Q) / |L(Q→)| r(P) = ページ P のランク L(Q→) = ページ Q から出ているリンク先の集合 L(→P) = ページ P にリンクを出しているページの集合 計算例(P2 のランク): L(→P2) = {P1, P5} L(P1→) = {P2, P3, P5} L(P5→) = {P1, P2} r(P2) = r(P1)/3 + r(P5)/2 P2 P1 P3 P5 P4 PageRank の定義 (ver 0.1) r(P) = Q2L(→P) r(Q) / |L(Q→)| r(P) = ページ P のランク L(Q→) = ページ Q から出ているリンク先の集合 L(→P) = ページ P にリンクを出しているページの集合 計算例(P2 のランク): L(→P2) = {P1, P5} L(P1→) = {P2, P3, P5} L(P5→) = {P1, P2} r(P2) = r(P1)/3 + r(P5)/2 P2 P1 P3 P5 P4 PageRank の行列表現 r(P1) r(P2) 0 0 0 0 1/2 1/3 0 0 0 1/2 r(P3) = 1/3 1/2 0 1/2 0 r(P4) r(P5) 0 1/2 0 1/3 0 0 0 1 1/2 0 r(P1) P2 r(P2) r(P3) r(P4) r(P5) P1 P3 P5 P4 状態遷移確率行列 (i, j)成分 = ランダムにリンク先をたどったとき, Pj から Pi に遷移する確率 PageRank の行列表現 r(P1) r(P2) 0 0 0 0 1/2 1/3 0 0 0 1/2 r(P3) = 1/3 1/2 0 1/2 0 r(P4) r(P5) 0 1/2 0 1/3 0 0 0 1 1/2 0 r(P1) P2 r(P2) r(P3) r(P4) r(P5) P1 P3 P5 P4 状態遷移確率行列の固有値 1 に対する固有ベクトル = 行列が既約で非周期的なら,定常確率分布 (マルコフ過程の理論) ランダムサーフモデルによる解釈 r(P) = 「ランダムにリンクをたどる遷移を十分な 回数行った後,ページ Pにいる確率」 (既約で非周期的の場合) P2 P3 P1 P5 P4 ランダムサーフモデルによる解釈 r(P) = 「ランダムにリンクをたどる遷移を十分な 回数行った後,ページ Pにいる確率」 (既約で非周期的の場合) P2 P3 P1 P5 P4 ランダムサーフモデルによる解釈 r(P) = 「ランダムにリンクをたどる遷移を十分な 回数行った後,ページ Pにいる確率」 (既約で非周期的の場合) P2 P3 P1 P5 P4 これを無限に繰り返す 例: r(P1) r(P2) 0 0 0 0 1/2 1/3 0 0 0 1/2 r(P3) = 1/3 1/2 0 1/2 0 r(P4) r(P5) 0 1/2 0 1/3 0 0 0 1 1/2 0 r(P1) r(P2) r(P3) r(P4) r(P5) の解は,(3/19, 4/19, 4/19, 2/19, 6/19)T 4/19 P2 3/19 4/19 P1 P3 P5 6/19 P4 2/19 練習 P1 P2 P3 このネットワークの PageRank (r(P1), r(P2), r(P3))T を求めよ 練習 P1 このネットワークの PageRank (r(P1), r(P2), r(P3))T を求めよ P2 P3 r(P1) r(P2) = r(P3) 0 1/2 1 1 0 r(P1) 0 r(P2) 0 1/2 0 r(P3) を解けばよい ただし,r(P1) + r(P2) + r(P3) = 1 答え: (2/5, 2/5, 1/5)T 既約でない場合? 定義: 状態遷移行列(マルコフ過程)が既約 任意のページ P から任意のページ Q に到達可能 既約でない例: P2 P1 P7 P3 P4 P5 P6 ランダムウォークの初期ページが P2 P5 定常分布は (0, 2/5, 2/5, 1/5, 0, 0, 0)T 定常分布は (0, 0, 0, 0, 1/2, 1/4, 1/4)T PageRank が一意に定まらない! 既約でない場合? 既約でない例2: P1 P2 定常分布が定義できない! P3 既約でない例3: P1 P2 P3 定常分布は (0, 1, 0)T リンク先がないページのランクが 最大となってしまう! 周期的な場合? 周期的な例: P1 P2 P3 定常分布に収束しない! 現実のインターネットは既約でなく, 周期的(な部分ネットワークを含む)に違いない どう解決する? PageRank の改良 PageRankの定義(ver 0.9) r(P) = 「確率 でランダムにリンクをたどり, 確率 1- でランダムに任意のページに移る という遷移を十分な回数行った後, ページ P にいる確率」 P2 P2 P1 P3 P5 P4 + (1-) P1 P3 P5 P4 PageRank (ver 0.9) の解釈 P2 P2 P1 P3 P5 P4 + (1-) P1 P3 P5 P4 確率 ® でリンクをたどり,確率 (1 - ®) で 任意のサイトに(直接 URL を打ち込むこと によって)移動することを十分な回数行った後, ページ P にいる確率 行列表現 PageRankの定義(ver 0.9) 1/5 1/5 1/5 1/5 1/5 A オリジナル = の遷移確率 + (1-) 行列 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 (r(P1), r(P2), ... )T = 行列Aの固有値 1 に対する 固有ベクトル 行列Aは,必ず既約・非周期的となる! さまざまな問題点 スポンサーリンクや 他人のblog のコメント 欄に書いたバックリンクによって,人為的に PageRank が上がってしまう どう解決する? 現在の解決法:nofollow オプションの導入 例: <a href="http://www.example.com/" rel="nofollow">discount drugs</a> とすると,www.example.com へのリンクは ないものとされる さまざまな問題点 有料リンク問題 リンクを高い値段で販売する業者の出現 無料アクセスカウンタ提供による大量リンク 獲得 アクセスカウンタに,隠しリンクを記述 どう解決する? さまざまな指標によるランクの統合 PageRank 以外に,200以上の指標が 使われているらしい これらの指標は,それぞれページにランクを つける どう統合する? ランクの統合 サイト1 サイト2 サイト3 サイト4 指標A 1 3 2 4 指標B 2 1 4 3 指標C 2 4 1 3 すべての指標が同じいくらい重要とするとき, どのように統合するのが良いか? cf. 選挙・・・有権者が各候補者に順位をつける場合 レポート課題(締め切り 11/28) PageRank の改良の余地はないだろうか? ページの重要性を表す指標について,適当と 思うものをいくつか考案せよ. 電子メールで,eiji@inf.kyushu-u.ac.jp まで!
© Copyright 2024 Paperzz