Web ディレクトリのためのページメタデータの自動付与の試み

Web ディレクトリのためのページメタデータの自動付与の試み
An Approach to Automated Web Metadata Creation for Web Directories
津田 宏 (Hiroshi Tsuda), 鵜飼 孝典 (Takanori Ugai), 三末 和男 (Kazuo Misue)
株式会社 富士通研究所
E-mail: htsuda@jp.fujitsu.com
概要
Web ドキュメントの爆発的増加にともない、 Web 情報検索や情報共有において Web ディレクトリの役割は重要
となっており、 Web ディレクトリを低コストで構築し運営するための (半) 自動化技術が求められている。本論文
では、まず多観点ディレクトリの構築におけるメタデータの役割を考察し、素性構造により Web ページおよびカ
テゴリの記述を導入する。次に個々のメタデータ自動付与として、 HTML 間のリンク解析技術を応用した、ペー
ジの人気度、タイプ、関連度、キーワードの抽出について述べる。最後に、これらの技術を利用した、ジャンルお
よび地域による多観点ディレクトリの試作について述べる。
1 はじめに
るという保証はない。一方、これだけの量になると専門
家が人手で付与するというのも困難である。
Web の拡大に伴い、その膨大な情報を機械的に効率
このような背景の元、我々は大量の Web に対してメ
Web[10] や、 Web Serタデータの自動付与により Web の組織化を行う研究を
vices のような次世代 Web の枠組みが提唱されつつあ
行っている [9, 11]。本論文では、多観点 Web ディレク
良く活用すべく、 Sematnice
る。これらにおいて、ソフトウェアエージェントが機械
トリの自動構築のための自動メタデータ付与について述
的な処理を行うためにあたって利用するのがメタデータ
であり、 XML ベースの RDF
べる。
(Resource Description
ポータルは、一般向けの全方位型よりは、特定の業
Framework) がその記述形式として位置づけられつつあ
る。こうした次世代 Web でリソースやサービスの統合 界や、コーポレートポータル (企業情報ポータル) のよ
を実現するにあたっては、リソースやサービスに大量の
うに特定企業内の生産活動を支援する手段として重要
メタデータがふられていなければならない。また、曖昧
になってきている。そのインタフェースとして、依然と
なく処理ができるためには、対象領域においてオントロ
してゴミ文書が少なく、階層整理されクリックだけで
ジー (語彙) の定義がなされ、メタデータはそれに基い
アクセスできるといった利点を持つ、 Yahoo! 型のディ
て記述されている必要がある。
レクトリは根強い。ディレクトリの運用においては、
(1)Web から対象ページを収集および選別し、 (2) それ
な貢献が可能だろうか。オントロジーについては、いわ を適切なカテゴリ階層に分類し、 (3) 必要であればカテ
こうした世界に対し、自然言語処理や AI はどのよう
ゴリ階層自体を変更する、という過程が必要となる。
ばそれにより記述できる世界の粒度が決まるため、厳密
Yahoo! の数十名のサーファや、 ODP (Open Direcけとなろう。一方、メタデータ付与については、自動化 tory Project)[6] の数千人のボランティアに見られるよ
性が要求される。自動化よりは構築補助のような位置付
は可能性はあり、また望まれてもいる。というのも、現
うに、人手管理には膨大なコストがかかり、自動化技術
在世界には 20 億以上の URL があると言われ、なお拡
が求められている。
大中である。 HTML 内の META タグも十分に付与さ
以下、 2章では Web ディレクトリに必要なメタデー
れているとは言えず、自然にメタデータが増えていく世
タとその素性構造による格納について述べる。 3章で
界は考えにくい。また、ページ作者がつけたメタデータ
は、ページ間のリンク解析により Web ディレクトリ自
は、かつて META タグが検索エンジンに対するワード
動構築のための各種メタデータの抽出の試みについて述
スパム1 の温床になったように、必ずしも正しく機能す
べる。 4章は、これら技術を用いた自動 Web ディレク
トリの構築の試みについて解説し、最後に課題等をまと
1 本文に関係のない、よく検索される語を META タグや本文のコ
メントなどに大量に入れ、検索エンジンの結果表示順位を上げる攻撃
める。
1
2 Web ディレクトリのためのメタデータ
2.1
素性構造によるページ / カテゴリメタデータ格納
2.2
Web ページ (URI) の意味的構造および、各カテゴリ
ディレクトリのための Web メタデータ
の意味的構造を素性構造 [2] により特徴づけることとす
Web ディレクトリの構築に向けて、ディレクトリ構 る。素性構造とは、自然言語文法の記述枠組として研究
築 / 運用の処理の観点からどのような種類のメタデータ されたデータ構造であり、属性と値の対を不定個取り、
が必要か考えることにしよう。
属性の制約の集合として意味づけられる。言語表現の意
まずページ選別には、ページの人気度、ページのタイ
味は完全に記述できないことが多く、情報を部分的に表
プ (メニュー的なページかどうか)、ディレクトリとの
現できる体系が望ましい。素性構造はそうした情報の部
関連度 (特定ディレクトリの場合) などが必要である。
分性の記述に優れた枠組みである。
本稿では、 Web ディレクトリの記述に対し、素性構
次に分類ラベルをつける必要がある。さらに、ページの
表示においては、 URL, タイトル, キーワード, 説明文
造の値に型を加えて拡張した、以下のような枠組みを考
などの一般的な情報が必要である。
える。
特にページ選別および分類に関連するメタデータは、
ディレクトリの階層に依存することになる。さらに、
Web ディレクトリは、利用者のナビゲーション補助に
ラベルと値の対である2 。以下では値はアトムのみ
l
動向に合わせて、階層自体も柔軟に変更できることが望
l
ましい。
l
Web ディレクトリにおけるディレクトリ階層の要件
l
l
l
l
として以下が考えられる。
(l1=v1; l2=v2; 1 1 1) の形の項で表される
を考える。 li 2 L, vi 2 A i である。
L = fl1; l2; 1 1 1g: ラベル (観点) 集合
A : ラベル l の値となるアトム列集合
: A における半順序関係。さらに、 (A ; ) は
ラティスを構成すると仮定する。 a; b 2 A に対し
て、両者の meet を a # b で表す。
用いられるため、図書分類などとは異り利用者や世間の
素性構造は
l
ディレクトリの階層は固定でない。移動 / 分割 /
素性構造 U; V 間の包摂 (subsumption) 関係は以下の
併合への対応が必要
ように定義される。次の定義は
利用者のナビゲーションを容易にするため、以下
情報であることを意味する。
のような特徴がある。
A v B , 8fl=v
b
{
階層には多様な観点が含まれている。
{
階層はツリーではなく、ラティスまたは単な
また、素性構造
と
g 2 B; 9fl=v g 2 A; v v
a
B
の単一化
a
l
b
(unication) は、両
者が共に包摂する素性構造のうち最大のものを取ること
る有効グラフ構造を成している。
{
A
A が B より特定された
AtB
c
になる。 A; B の単一化を
階層は厳密な下位関係ではなく、またサブカ
a b および d = a #
テゴリ間も排他的でない。
の場合、
l
l
で表す。例えば、
(l=a; m=e) v (l=b)
(l=a) t (l=c; m=e) = (l=d; m=e)
前述のようなコーポレートポータルへの適用を考える
と、実際のディレクトリの階層は各企業に合わせて上下
である。
階層や粒度などがカスタマイズされることになる。各
Web ディ レ クト リ の 記述 で は、 Web ペー ジ (URI)
ディレクトリに合わせて Web の分類などメタデータ作
の意味的構造は素性構造、また、ディレクトリの各カテ
成を個別に行うというのはオーバーヘッドが大きい。
ゴリは素性構造の集合として特徴づけられるとする。
また、ディレクトリによってページの選別基準も異な
ページ p の素性構造を
る。一般的なポータル向けのディレクトリであれば、定
合を
番サイトを上位に持ってくれば良いかもしれない。しか
し、特定の趣味のためのポータルでは、定番よりもその
F
趣味に関連しているものが優先された方が良いだろう。
F
C
p
2 F
dir
C
で表現し、関係
F
p
F
C
の素性構造集
C
v F
c
D
2
dir
を以下のように定義す
2 F , 9c 2 F ; F v c
dir
また、カテゴリ
び分類に関するものについては、一旦柔軟なデータ構造
、カテゴリ
で表す。
も業務と関連していなければ掲載されるべきではない。
そこで、我々は URL のメタデータのうち、選別およ
p
あるカテゴリ C に、 Web ページ p が属することを、
る。
また、コーポレートポータルには、人気サイトであって
F
C
C
が
で表し、関係
C
D
v
c
p
の下位関係であることを
を以下のように再帰的に
定義する。
を置き、それを介して URL とカテゴリ階層とが対応で
2 一般には、素性構造の表記には fl=v 1 1 1g を使うことが多いが、
カテゴリにおける集合の記述とまぎらわしいため、このような表記を
導入する。
きるべきと考え、素性構造を利用した形式での格納を考
えることとした。
2
http://hoge.co.jp/card/ は 「お も ちゃ」 に 属
F
C
する (Fp2
v F , 8 c 2 F ; 9d 2 F ; c v d
c
D
C
2 Fおもちゃ ) ことになる。3
dir
D
また、カテゴリ C と D の共通の下位カテゴリを
C _D 3
Web リンク解析技術によるメタデータ自
動付与
で表し、以下のように定義する。これにより、多観点の
カテゴリの合成も行うことができる。
以下、 Web のリンク解析を用いたディレクトリのた
8c 2 F ; 8d 2 F ; c t d 2 F
めのメタデータ自動付与の手法について述べる。ページ
素性構造は、記述された属性に対する制約を表現して
ジの人気度付与について、 3.2節では Web ページのタ
C
C _D , if (c t d) exists
D
選別のためのメタデータとして、 3.1節では Web ペー
いる。例えば、
イプづけについて、また、 3.3節では、特定ディレクト
F 2 = (org=出版社; genre=トレーディングカード)
は、 F 2 :org
v 出版社 お よ び F 2 :genre v
リのためのページ選別について述べる。 3.4節は、一般
p
p
の URL メタデータとして被リンクからのキーワード抽
p
トレーディングカード
出手法について述べる。
という制約表現で表現することも可能である。これ
は、 RDF の三つ組表現により素性構造が表現できる
ページ人気度とその推移
3.1
ことを意味する。 Fp2 を
source, 「出版社」や「ト
Web におけるページの人気度とは何だろうか。 Web
レー ディ ン グ カー ド」 を target、 org issubsumedby,
genre issubsumedby を property と見なすことで RDF は構造上アクセスログが各サーバにしか残らないため、
アクセス数を外部から正しく測定できない。また仮にわ
によって表現することも可能である。
かったとしても、アクセスを故意にあげる手段も色々あ
2.3
るため、厳密の意味の人気度とは言えない。また、検索
実例
エンジンなどのサービスから外部 URL へ移動した際の
(情 報 発 信 者 種 別)、 ログを分析したり、 Nielsen//Netratings 社のように少
ラ ベ ル (観 点) と し て、 org
genre (ジャンル種別) を考えよう。
例えば、 p1 = http://hogeland.co.jp/ が遊園
地、 p2 = http://hoge.co.jp/card/ が、出版社に
数のモニターによる視聴率と同様の調査などのアプロー
チがあるが、偏りがあったり、統計的意味のある範囲が
狭いなど、一長一短である。
より提供されたトレーディングカードに関するページ、
そこで、比較的客観的で、網羅的、継続的な結果を
遊園地は公園の下位情報、トレーディングカードは玩具
得られるものとして、 Web のリンク解析を用いた人気
の下位情報ということは以下のように記述される。
度を考えた。 Google 社をはじめ多くの検索エンジンで
F 1 = (org=遊園地)
F 2 = (org=出版社; genre=トレーディングカード)
A = f遊園地; 公園; 出版社g
は、ページ間のリンクを解析して人気度を付与してお
p
り、その有効性は高いとされている。被リンクが多いほ
p
ど、リンクを辿って多くの人が来る可能性もあると考え
org
= f遊園地 org 公園g
Agenre = fトレーディングカード; 玩具g
genre = fトレーディングカード genre 玩具g
られる。
org
我々は Page ランク [1] を、リモート / ローカルリン
クにより重みを変更できるように改良した、以下の方
法によりページの重みを考えた [9]。後述のように、リ
カテゴリ階層として、「トップ」の下に「遊ぶ」があ
モート / ローカルの区別は、メニュー的なページの取出
り、「遊ぶ」の下に「公園」 (情報発信者種別) と「お
しに有効である。この重みが高いものは、ディレクトリ
もちゃ」 (ジャンル種別) があるという階層 (つまり、
のコンテンツ的な性格が強くなる。
F遊ぶ v Fトップ ; F公園 v F遊ぶ ; Fおもちゃ
F遊ぶ ) は、以下のように記述できる。
c
c
v
P W (p)
c
n
の人気度 (値が大きい程人気度が高い)
Fトップ = fF遊ぶ g
F遊ぶ = fF公園 ; Fおもちゃ g
Fおもちゃ = f (genre/ 玩具) g
F公園 = f (org/ 公園) g
定 義 に よ り、 p1
=
は 「遊 ぶ」 に 属 し (Fp1
f (p; q)
dir
をページ
p
p から q への、重み w の移動量
ファクタ
RL(p) をページ p のリモートリンク数
LL(p) をページ p のローカルリンク数
3F
p1 = (org=遊園地)
http://hogeland.co.jp/
2
を、 n 回目のループにおける、ページ
F遊ぶ )、 p2
v
(org=公園) =
(org=出版社; genre=トレーディングカード)
=
F
おもちゃ
3
F
公園 、および Fp2 =
(genre=玩具) =
v
:
ローカル / リモートリンクファクタ (ローカル
か)
:
1: Web ページタイプ
表
リンクをリモートリンクの何本分にカウントする
人気度移動割合 (現在の人気度のうち、どれだ
けの割合をリンク先に移動させるか)
タイプ
目的
特徴
メニュー
ローカルリソース
被リンク多
への入口
ローカルリンク多
リモートリソース
リモートリンク多
リンク集
として、以下の繰り返し計算を行う。
へ分岐
PW
= (1 0 )P Wn (A)
n+1 (A)
+ X
86
>
<0
1
>
:
p=A
f (p; q) =
P W (p)
f (p; A)
(RL(p) + LL(p)
コンテンツ
情報内容提示
リンク少、文多
非テキスト
写真、サウンド
非テキスト,
特定 Content
メディア
n
(p から q へリンクなし)
(p から q にリモートリンクあり)
(p から q にローカルリンクあり)
表
type
2: ページタイプの分布
リソース
コンテ
リンク
メニュ
非テキ
(URL 数)
テンツ
集
ー
スト
う し た 重 み も か な り 変 動 す る。 上 記 重 み に よ る ソー
イントラネット
ト 順 位 を ペー ジ の 人 気 度 と 見 な そ う。 Web ペー ジ
77.8%
1.5%
11.9%
8.8%
一般 (354,276)
50.3%
6.8%
41.1%
1.7%
53.4%
3.6%
22.8%
20.2%
10.3%
2.0%
87.0%
0.7%
た だ し、 Web の リ ン ク 関 係 は 流 動 的 で あ り、 こ
を 毎 日 起 点 を 変 え な が ら 3 階 層 程 度 取 り 続 け、 約
イントラネットデ
10ヶ 月 に わ た り、 そ の 直 前 の 約 半 年 分 に 収 集 し た
ィレクトリ (644)
ペー ジ 群 か ら 各 ペー ジ の 人 気 度 を 算 出 し、 そ の 遷 移
インターネット
1は、 小 泉 内 閣 メー ル マ ガ ジ ン
(http://www.kantei.go.jp/jp/m-magazine/) の 人
気度の推移である。 6/14 の第 1 回配布の前後で急伸し
一般 (4,404,210)
を 調 べ て み た。 図
Yahoo
(58,554)
ている。最近は上昇速度は鈍化していることがわかる。
けるべく、リンクによるページ分類とディレクトリの関
係を調べてみた。我々は、 Web ページのタイプ分類 [7]
を簡略化し、リンク分析により判定できるタイプとして
表 1を考え、これらのタイプを判定するツールを開発し
た (実際には 1 ページにこれらの全ての要素を押しこめ
てしまったようなページも多く、適合率は 9 割程度であ
る)。
インターネットで Yahoo! から参照されているページ
と、イントラネットで人手で運用されている社内ディレ
クトリから参照されているページのタイプ分布をまとめ
たのが、表 2である。やはり、ディレクトリのコンテン
ツとしては、メニューページが望ましいということがわ
かる。
図
1: 小泉内閣メルマガの人気度の動き
3.3
ブートストラッピングによる関連度獲得
リンクによりつながった Web 文書の間には何らかの
3.2
意味的関連があるのは明かであろう。また、互いにリン
ナビゲーションタイプ
ク関係にはないが同一のリンク集からしばしば共参照さ
ディレクトリにふさわしい Web ページのタイプはど
れるページ間にも何らかの関係があると言われる [5]。
のようなものであろうか。ピンポイントの検索という
以上のようなヒューリスティックスを利用し、リンク関
よりは、ナビゲーション的な性格が強く、まとまった情
係による類似度を元にしたブートストラップ手法を考案
報への入口ページがふさわしいであろう。これを裏づ
した。これは少数の元ページから、類似したページを順
4
次加えていく操作を繰り返すものであり、以下のプロセ
スからなる。
1. S 0 を元ページ集合。 S = S 0 とする。
2. S に含まれず、 S から参照度スコア (Rscore) が
n ページを Rf とする。
3. S に含まれず、 S から共参照度スコア (Cscore)
が一定以上の m ページを Cc とする。
4. S [ Rf [ Cc を新たな S として 2 に戻る
一定以上の
ページ
d
き、 d と
が i 回目の繰り返しで S に加ったとしたと
S 0 との関連度を 1=i とする。 Rscore および
Cscore は以下のように定義する。
jLS (d) \ S j logjLS (d) \ S j
Rscore(d; S ) =
jLS (d)j
j
CCS (d; S )j
Cscore(d; S ) =
3
jLS (X
d)j
log
jLT (p) \ S j
図
3: What's New に関するページのブートストラップ
がうまくいかない例
3.4
アンカー文字列解析による企業名同義語辞書生成
企業トップページなどオーソリティのあるページを探
す場合や、そのページの内容分類を行う場合、企業名の
2C C S(d;S )
異称 (同義語) が障害となることがある。一般に、同義
p
LS (d) はページ d の参照元ページ集合、 LT (p)
はページ p の参照先ページ集合、 CCS (d; S ) は、 d
と、 S 内の少くとも 1 ページを共に参照しているペー
語は同一文の中で共起しないため、通常のコーパスベー
ここで
スの自然言語処理アプローチでは対応しづらいことが知
られている [4]。
ところが、アンカー文字列は、対象ページを多様な
ジ集合である。
本ブートストラップ手法の一つの応用として、ある分
人々がどのような言葉で参照しているかを示したもので
野のページをどれだけ効率良く探し出せるかがある。
ある。これを元に、次のように同義語を収集することが
実験環境として、約 1,000 万 URL を収集し、その中の
考えられる。
URL に \linux" を含むページ群約 15,000URL に対し
て、 3-fold CV 的な評価 (1/3 を S 0 として、何回の繰
り返しでどのくらい再現率 / 適合率が得られるかを調べ
たもの) を行った結果を、図 2 に示す。
1. アンカー文字列のクリーニング:
全半角文字、英大小文字、空白文字の統一、
記号文字削除
「ホームへ」「戻る」「Back
to ...」などの
ストップワード削除
2. 各文字列 w の総出現回数 OC (w)、 w が参照する
相異なるページ数 DF (w) を集計
3. min < DF (w) < max なる 語 w に対して、各
ページ d の w による参照数 T F (d; w) を集計
4. 以下の重みの上位 n 語をページ d の特徴語とする:
weight(d; w) = log(T F (d; w))=DF (w)
上記の手法により、例えば、www.panahome.co.jp
やwww.rkb.ne.jp に対し次のようなキーワード列が得
図
られた (重み順)。この会社に対して、世の中でどのよ
2: Linux に関するページのブートストラップ結果
うに呼ばれているかがわかる。
傾向として意味的に関連するページ群ほど適合率の
ナ ショナ ル住 宅産 業, ナショ ナル 住宅 産業
(株), ナショナル住宅産業株式会社, パナホー
ム, ナショナル住宅, PANAHOME, ナショ住
(1924)
3は、意味的に関連な
いページの例として What's New の例であり、 URL
に whatsnew,whatnew を含むものを正解セットとして
14,000 選んだ。このように、互いに意味的な関連のな
低下は緩やかである。一方、図
RKB テレビ, RKB 毎日放送, RKB 毎日放送
(TBS 系), RKB 毎日放送 (1278KHZ)RKB,
いものやランダムに選んだものに対しては、数回の繰り
返しで適合率は急激に減少する。
5
アールケービー毎日放送,
RKB 毎日放送 (株),
RKB 毎日, R.K.B 毎日放送, アールケービー
毎日放送 RKB, RKB, 毎日放送, RKB(RKB
毎日放送)
6. Type: ページ (ナビゲーション) タイプ。メニュー,
リンク集, コンテンツ, 等 (3.2節参照)
7. Format: HTML など
8. Identier: URL。ミラーサイトは同一のものとし
て縮退。末尾の index.html などは適宜削除
9. Source: リンク元 URL 集合
10. Language: コード種別からヒューリスティックス
4 地域 / ジャンル多観点自動ディレクトリ
の試作
で判定
11. Relation: 特定ドメインとの関連度 (3.3節参照)
12. Coverage: 関連地域。 f 県 (area1), 郡 (area2), 町
村 (area3)g の ラ ベ ル を 付 与。 URL や HTML 本
文からルールベースの手法を用いて自動抽出 (詳細
は本稿の範囲外)。
13. Rank: ページ人気度 (3.1節参照) および、最近 2
以上説明した技術を用いて、以下の手順で構築した自
動ディレクトリを紹介する。
4.1
ページ収集、選別
検 索 エ ン ジ ン InfoNavigator の 収 集 ペー ジ を 元
に、そこから人気度の高いページを毎日起点を変
週間の人気度の動きを線型回帰した傾き
えてクローラーで数階層収集し、異り URL で約
4,500 万 URL を収集。 Web の中でも比較的人気
度 (被リンク数) の高いページ群と考えられる。
4.2
4.3
実例
ディレクトリのトップからは、地域階層トップと、
4,500 万 URL か ら の リ ン ク 先 を 含 め た URL 群 ジャンル階層トップの両方が見えている。図 4のよう
(計 1.2 億 URL) から、 3.1節の手法でページ人気 に、地域 / ジャンルを両方自由に組み合わせて検索する
度を計算。また、 3.2節の手法でメニューページも ことが可能である。図 4は、合成カテゴリ「神奈川 _ 文
判別し、人気度が高くメニュー的なページを自動
化施設」の例である。カテゴリと上位ページの素性構造
選別した。
による表現は次のようになる。
メタデータ付与
「神奈川」カテゴリ:
F神奈川 = (area1=神奈川)
そこで、ディレクトリのためのメタデータとして、
Dublin Core element [3] から、著者 (Creator)、寄与
者 (Contributer) および権利関係 (Right) を除いて、代
わりにランキング (Rank) を加えた以下のような属性を
「カルチャー」カテゴリ
:
Fカルチャー =
f(genre=カルチャー); (org=カルチャー)g
自動付与した。
1. Title: ページタイトル。作者の付与したもので、
title タグまたは H タグから自動抽出
2. Subject: f 情報発信者 (org), ジャンル (genre),
キーワード (kwd)g の観点の値を自動分類で付与
「神奈川
AND カルチャー」合成カテゴリ:
Fカルチャー
神奈川 = f
(genre=カルチャー; area1=神奈川);
(org=カルチャー; area1=神奈川)g
AN D
する。情報発信者ラベルは、主に「銀行」「官公
庁」などの団体種別である。ジャンルラベルは、
最初の URL (「横浜こども科学館」):
F横浜こども科学館 =
(org=市役所; genre=科学技術; area1=神奈川; area2=横浜)
ページコンテンツからのジャンル種別である。こ
の二者については、 URL や HTML 本文からルー
ルベースの手法を用い、合わせて約 650 種類の値
を付与している (詳細は本稿の範囲外)。 kwd は、
次の URL(「ズーラシア」):
Fズーラシア =
(org=動物園; area1=神奈川; area2=横浜; area3=旭区)
META タグ内情報および 3.4節で述べたアンカー
キーワードによる手法で付与。
3. Description: META タグ内またはページ本文の最
さらに次のように値と階層関係が規定されているとす
初
る。これにより、上記 URL が本カテゴリに含まれてい
4. Publisher: ホスト名
ることがわかる。
5. Date: 最終更新日または crawler による最終取得
日
Agenre = f科学技術; カルチャーg
6
A
= f科学技術 genre カルチャーg
org = f文化施設; 動物園; カルチャーg
org = f文化施設 org カルチャー; 動物園
genre
g
org
文化施設
このように、素性構造で URL メタデータを付与する
ことで、多観点の複数カテゴリの合成もメタデータを変
更することなく可能である。また、カテゴリを変更する
場合も、カテゴリの対応する素性構造を変更すること
で、メタデータの全てを変更しなくてもある程度は対応
できる。
図
5: 「首相」カテゴリ
する必要はない。また、ページ分類もディレクトリ階層
とは独立に行えるのも利点と言える。
4: 地域 (「神奈川」) とジャンル (「カルチャー」)
図
二次情報自動生成において、本論文ではリンク解析技
の合成カテゴリ
術の有効性を述べた。個々のリンクには各人の知識の断
片が込められている。本論文で述べた多くの手法は、そ
うした知識の断片から、 Web 全体の知をマイニングし
また、 Rank の情報を用いると、 3.1節で紹介した手
て明らかにしたとも言える。 Web のリソースは量がや
法を用いて、今ページがどのような状態にあるかもわか
みくもに多く、個々のページの質はまちまち (便所の落
る。図 5は「首相」カテゴリの例であるが、一位の「官
邸トップページ」は定番的だが、大きく減少中、二位の
書から論文まで) である。しかし、リンク解析により全
「小泉内閣メールマガジン」は上昇傾向ということが見
体の知を明らかにすると、概ね妥当なことは多い。例え
てとれる。
ば、自動ディレクトリにおいて、各カテゴリトップは概
こうしたリンクベースの手法は、もちろん Web 人気
ね定番ページが来るし、自動車業界などのカテゴリでは
度の一つのモデルにはすぎないわけであるが、比較的低
御三家がトップに並ぶ結果になる。 Web ページは、新
コストで網羅的、継続的な結果を得られるのが特徴と言
聞などと違って統制されておらず非常に汚いので、自然
える。
言語処理のコーパスアプローチ手法がとりづらい。しか
5 おわりに
従来の統制的な言語コーパスでは得られないような情報
し、それを逆手に取ることで、 3.4節で述べたように、
を取出すこともできる。
本稿では、 Web ディレクトリの自動化を対象に、必
ただし、こうしたリンクベースの手法は、 Google 社
要となるメタデータの構造および、 Web リンク解析を
の検索エンジンにより有名となったこともあり、反面、
用いて自動付与を行うアプローチについて紹介した。
リンクスパムとも言うべき意図的なリンク張りも始ま
一般的に Web ディレクトリは階層が固定しでないこ
りつつある。また、オーサリングツールや動的ページで
と、さらに、多様なディレクトリへの応用を考えると、
自動で網羅的にリンクを張ったページも増えており、リ
メタデータとしては柔軟な構造が要求される。本稿では
ンク解析が一概にページ作者の知恵の集結とも言えな
素性構造を介して、 URL メタデータと実際のディレク
くなってきている。今後、ページ本文の解析により無駄
トリ階層との対応づけを提案した。多観点のカテゴリ
なリンクを除去 (クリーニング) してからリンク解析を
間の合成も行うことができ、ディレクトリ階層を変更
行うなどが必要になると考えられる。また、 3.1節で述
べたリンク解析による人気度付与は、あくまでも Web
URL メタデータを個々の URL メタデータ全てを変更 ページの人気度を測る一つのモデルにすぎない。その信
する場合でも、カテゴリの素性構造を変更するだけで、
7
[6] ODP.
Open
Directory
http://www.dmoz.org/, 2000.
頼性は世の中の他要因と照らして検証していく必要はあ
る。
本稿では、実際のページ分類手法については言及し
Project.
[7] P. Pirolli, J. Pitkow, and R. Rao. Silk from a
Sow's Ear: Extracting Usable Structures from
the Web. In SIGCHI96, 1996.
ていないが、ディレクトリとして、分類精度などの評
価は必要である。ただし、この場合も適合率 (ゴミの
少なさ) については人手チェックなどで行うことができ
るものの、再現率は Web のようなオープン環境で、か
[8] RSS-DEV-WG. RDF Site Summary (RSS) 1.0.
http://purl.org/rss/, 2000.
つ 3.1節で述べたように動きのあるものについては難し
い。手法を含めて検討していく必要がある。
[9] H. Tsuda, T. Ugai, and K. Misue. Linkbased Acquisition of Web Metadata for Domainspecic Directories. In PKAW2000, pp. 317{324,
2000.
専門ディレクトリへの応用としては、企業内情報ポー
タルに本技術を適用することが可能である [11]。社内の
ページ群 (イントラネット) から社外 (インターネット)
ページへのリンクを元にブートストラッピング手法を用
[10] W3C.
Semantic
Web
少し違った上位ページが得られる。例えば、 geocities
http://www.w3.org/2001/sw/, 1998.
いて関連するページを取出すと、一般の人気ページとは
のようなコミュニティ系やエンタテインメント系のペー
Activity.
[11] 津田, 鵜飼, 三末. 特定ドメイン向け Web ディレ
クトリためのリンク解析. 人工知能学会全国大会,
内からの関連度は低い。また、関連会社のように、イン
May 2001.
ジは、一般にインターネットでの人気度は高いものの社
ターネットでは知名度はないものの社内からは人気が高
いページもある。
Semantic Web などの次世代 Web の実現において
は、大量のメタデータを用意する必要がある。こうし
たマイニング手法、あるいは自動分類のような AI 手法
は、確かに一般的には 100% の精度を出すのは不可能
である。しかし、それでも大量に用意できるので、例え
ば検索エンジンのように応用によってはそれで十分な
場合も多い。次世代 Web における意味的統合において
は、こうした自動化技術による大量メタデータと、さら
にオーサリングツールなどを用いて人手で付与された精
緻な、しかし少量なメタデータが共存し、多彩な応用を
作り出していくのではないだろうか。
参考文献
[1] S. Brin and L. Page. The Anatomy of a LargeScale Hypertextual Web Search Engine. In
WWW7 Conference, 1998.
[2] B. Carpenter. The Logic of Typed Feature Structure. Cambridge University Press, 1992.
[3] DCMI.
Dubline Core Metadata Initiative.
http://dublincore.org/, 1995.
[4] G. Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer, 1994.
[5] R. Kumar, P. Raghavan, S. Rajagopalan, and
A. Tomkins. Crawling the Web for Emerging
Cyber-communities. In WWW8, 1999.
8