知識発見特論 吉岡真治 前回の質問 どんな情報を要約したいか? – 論文 2 – ブログやSNS 3 時系列データとして要約することで、ブログの著者の興味 なども分かる。 – 就職活動のための企業情報 同じようなスタイルで複数の企業の情報を要約することで 比較が容易になる。 – ニュース – メール メールの重要度を考慮して、要約してくれるとうれしい。 – マニフェスト 他との違いなども含めて要約してくれるとうれしい。 – 自分の日々の活動の記録 体調の情報や移動の履歴などとも関係づけると、体の調 子が悪いといったことを通知できるようになる。 – 製品の評判情報 前回の質問 自動要約でできそうなこと – 本の要約などが短すぎるといった場合があるので、自 動要約で長さがコントロールできるとうれしい。 – 異なるアイディアの書いてある教科書などをまとめた 新しい教科書の生成 – 1日のニュースをまとめて見やすくしてくれるサイト – 発話に対して自動要約することで、議事録などが読み やすくなる。発言者の情報も得られる。 – 因果関係の明確化 – ホームページの自動アブストラクト生成 – 論文のアブストラクト作成支援 前回の質問 質問・コメント – 自動要約は日本語だから難しいのか? – 自動要約の結果は、本当に元の文書の意味を表して いるのか? – ディープラーニングという手法について気になってい る。このようなニューラルネット的なアプローチが使え る可能性はあるか? – スニペットが自動要約の一種であると理解しました。 講義の予定 情報検索 Information Retrieval – – – – 情報検索システムの概観 様々な情報検索モデル WWWを対象とした情報検索システム 評価型ワークショップによるシステムの評価 自動文書要約 Text Summarization – 文書要約の概観 – 様々な文書要約の手法 関連研究分野 Related Research Areas – 情報抽出、質問応答 参考資料 特集 自然言語による情報アクセス技術, 情報 処理学会誌 Vol.45 No.6 (2004) 情報抽出 Information Extraction Webや新聞記事などに記述されている非構造的 な情報から役に立つ情報を抽出する – 例: • 新聞記事から特定の事柄(例えば、人事異動・企 業合併)などについて述べている部分を抽出して 整理 • Webページから製品情報や価格の情報を抽出し整 理 初期の情報抽出の技術 Topics of Information Extraction at Early Stage Message Understanding Conferenceの課題(1980 年代~90年代半ば) http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ – 新聞記事のようにきちんとした自然言語で記述された 文書から、特定の目的に合致する情報を抽出する。 – 汎用的な構文解析ではなく、局所的なパターンを利用 A社は、本年3月に、B社長が 退任すると発表した。同社は 、C専務が社長に就任するこ ともあわせて発表した。 人名 企業 前職 B A社 社長 C A社 専務 新しい職 社長 パターン (企業)は (人名)(役職:前職)が 退任 発表 → 企業=A社 人名=B 役職:前職=社長 情報抽出のための要素技術 Fundamental Technology for Information Extraction 固有表現抽出 – 固有名詞や数値表現などの特定の表現を抽出 – パターンとのマッチングに制約をかけることが可能 照応関係の解析 – パターンでは、代名詞などとマッチングする可能性が あり、その内容を特定するためには、照応解析が必 要 パターンの自動作成 – パターンの作成は人手がかかるため、パターンの自 動生成が望まれる 固有表現抽出 Named Entity Extraction 情報抽出に役立つ固有表現をカテゴリごとに抽 出 – MUCの初期段階 • 人名、組織名、地名、日時、金額表現、割合表現 – IREX http://www.csl.sony.co.jp/person/sekine/IREX/ • 固有物 固有表現抽出システム – パターンベース • 人手によるパターンの作成 • 固有表現のタグつきコーパスからの自動学習 固有表現の抽出法の例 An Example of Named Entity Extraction NExT(Named Entity Extraction Tool) パターン辞書と抽出規則(品詞連接)を利用した固有表 現抽出ツール http://www.ai.info.mie-u.ac.jp/~next/next.html – パターン辞書(固有表現キー) • 固有表現を発見するのに役立つキー • 例 – 人名: ~さん、~先生 – 地名: ~市、~半島 – 抽出規則 • 固有表現の切り出しを行うための品詞の規則 • 例、 – 人名や地名の場合は、名詞もしくは未知語の連接、人名には、 「さん」や「先生」は含めない。 – 田中さんが、山田さんと札幌市で会った。 固有表現のカテゴリ Category for Named Entity 情報抽出における利用シナリオによって必要と なる表現が変わる – 抽出したい情報に当てはまるタイプの表現 • 伝染病の発生場所と名前 → 伝染病(病気) • 発癌物質として認識されている食品添加物 → 食品添加物(化合物) 固有表現のカテゴリの拡張 – 定義の問題 • 複数のカテゴリの違いを考える必要がある – データ数の問題 • 全てのカテゴリーに対して、パターン発見のための 十分な訓練データを用意することが困難 照応関係の解析 Anaphora Resolution 必要とされる照応解析 – – – – 代名詞:この企業 略語:「北海道大学」と「北大」 省略:主語の省略など 時間:昨年、4日、… 解析の例 – 代名詞:代名詞のカテゴリーとそれより前に現れるカ テゴリーに属する名詞 – 略語:省略形の生成ルール – 省略:前の文の主語などを補完 – 時間:基点となる時間情報(例えば、記事の掲載され た月日)の利用 パターンの自動生成 Automatic Pattern Generation テキストコーパスの利用 – トピックに関連するドキュメントの利用 • トピック特有の言い回しが多く現れると仮定し学習 – タグつきコーパス • 実際にカテゴリーが付与されたデータを利用して学 習 パターンの表現 – 構文木構造による表現 • 動詞と主格 • ofでつながれた名詞節 • 任意の部分木構造 Webからの情報抽出 Information Extraction from the Web Webラッパー – Webのhtml文書の構造を利用して、役に立つ情報を 抽出 • テーブル要素の繰り返しやリストの列挙情報から情 報を抽出 • 例: – テーブルから商品名と価格の対の組み合わせを獲得 – 各研究者の論文リストから、論文名とその論文のファイル を獲得 http://citeseer.ist.psu.edu/ Webからの情報抽出 Information Extraction from the Web Webラッパー HD1 160GB SCSI 35000 HD2 350GB IDE 25000 <table> <tr> <td> HD1 </td> <td>160GB </td> <td>SCSI </td> <td>35000</td> </tr> <tr> <td> HD2 </td> <td>350GB </td> <td>IDE </td> <td>25000</td> </tr> </table> テンプレート 型番:table/tr[*]/td[1] 容量:table/tr[*]/td[2] タイプ:table/tr[*]/td[3] 値段:table/tr[*]/td[4] 型番 容量 タイプ 値段 HD1 160GB SCSI 35000 HD2 350GB IDE 25000 質問応答 Question and Answering Webや新聞などの情報を知識源として、ユーザ の質問に答えることができるシステムの作成 – 様々な要素技術の複合 質問文 質問文解析 言語知識 情報検索 回答候補の 絞込み 回答 知識源 質問文解析 質問に応じて、回答が満たすべき固有表現のカ テゴリを決定 – 「~を行ったのは誰ですか?」 → 人名 – 「~はいつですか?」→ 時間 質問応答のための情報検索 全ての文書を解析して、回答を作成するのは時 間的に困難 – 役に立ちそうな文書を探してから解析 – 情報検索の利用 • 質問部の内容を含む文書を検索 回答候補の絞込み 固有表現抽出の技術を利用する方法 – 言い換えなどについても検討 – 例: • 「最も安い」→「最安値」 文書の特徴を利用する方法 – 回答は質問文中のキーワードの近くにある – 頻度の情報(複数の文書からの解析結果を利用) 質問応答のための情報検索 特定の名付実体(固有名詞:人名等)に関連する 質問のための情報検索 – 名付実体の情報を含まない文書は否適合文書 Query: ポール・ニッツはいつ亡くなりましたか? ポール・マッカー トニー ……ポー ル……. 亡くなる ….ポール…死 亡…. 部分照合を行うIR○ 質問応答用IR × ……………… ポール・ニッツ …死亡…… ……………… ……………… …… ○ ○ …… 死亡 …………… …………… …………. × × まとめ Summary Webを情報源とした知識発見 – – – – 必要な情報を探す:情報検索 情報をユーザに簡潔に提示する:自動要約 特定の情報を見つけ出す:情報抽出 複合技術としての質問応答
© Copyright 2024 Paperzz