当日配布資料(189KB)

インターネット上の有害文章・非公
開文章の高精度フィルタリング
名古屋工業大学大学院
工学研究科 産業戦略工学専攻
准教授 伊藤孝行
発表内容
† 研究背景
„ 関連研究
† 提案手法
„ フィルタリング手法
„ 共起辞書の構築
† 評価実験
† まとめ
研究背景と目的
† SNSや掲示板等のユーザーが書き込めるサイト
が増えている
„ ユーザーが自由に記述できるため,未成年に有害な
文章が書き込まれる事がある
† 未成年に有害な文書は多くのサイトで対処されて
いない
„ サイトによっては人手によって処理されるが,処理する
コストが高い
目的
自動的な有害文書フィルタリング手法の提案
関連研究
† ベイジアンフィルタリング
„ スパムフィルタリングで使用される
„ スパムによく使われている単語が多いメールはスパム
„ 一般的な単語が多い場合,スパムではないと判定される
† サポートベクターマシーン(SVM)
„ 教師あり学習を用いた手法
„ 未学習のデータに対する精度が高い
„ 使用する関数等で大きく精度が変わる
提案手法
† 以下の3つのフィルタリングステップで構成
1. ブラックワードフィルタリング
†
ブラックワードが含まれていれば有害文書
2. グレイワードフィルタリング
†
グレイワード(有害であるとも無害であるともいえない単
語)が含まれていなければ有害で無い文書
3. 安全度フィルタリング
†
共起辞書を用いたフィルタリング
提案手法
有害な文書
安全度が
閾値以下である
有害度
フィルタリング
有害では無い文書
安全度が
閾値以上である
グレイワードが
含まれていない
グレイワードが
含まれている
グレイワード
フィルタリング
ブラックワードが
含まれていない
入力文書
単語へ分割
ブラックワード
フィルタリング
ブラックワードが
含まれている
3単語間共起辞書の構築
† 正例(有害でない文書)と負例(有害な文書)から共起
関係を抽出
† 3単語間共起とは?
„ 例:「吾輩は猫である.名前はまだ無い」の3単語間共起
„ [吾輩,猫,名前],[吾輩,名前,無い],[猫,名前,無い]
† 上記の1件のみを正例として作成したの共起辞書
単語1
単語2
単語3
正例での
出現回数
負例での出
現回数
吾輩
猫
名前
1
0
吾輩
名前
無い
1
0
猫
名前
無い
1
0
補足:形態素解析と実験用データ
† 単語の分割は形態素解析の後に処理を行う
„ 形態素解析ソフトにはMeCabを利用
„ 副詞や助詞など,単独では意味をなさない単語は省く
† 実験用データの取得元
„
„
„
„
正例:2chのグレイワードが含まれる記事
負例:2chのブラックワードが含まれる書き込み
ブラックワード:負例を形態素解析し,人手で確認
グレイワード:負例を形態素解析し,人手で確認
安全度の計算
† 安全度safe(sentence)を求める式は以下
⎧
⎫
N p (A,B,C)
⎬
Safe(sentence) = AVERAGE ⎨
(A ,B,C )∈sentence N (A,B,C) + N (A,B,C)
⎩ p
⎭
n
(A,B,C)∈sentence:sentence内に含まれる単語(A,B,C)の
組み合わせ
Np(A,B,C)
:(A,B,C)が正例で出現した回数
Nn(A,B,C)
:(A,B,C)が負例で出現した回数
有害度計算の例
†例
„ 入力文:「吾輩は猫である.名前はまだ無い」
単語1
単語2
単語3
正例での
出現回数
負例での
出現回数
吾輩
猫
無い
15
0
猫
名前
無い
8
8
共起辞書内の対応する共起関係
† 有害度=(1.0+0.5) / 2 = 0.75
実験環境
† 計算機
„ CPU:Xeon(2core)*2
„ メモリ:8G
„ OS:CentOS 5.3
† 使用ソフトウェア
„ プログラミング言語:Ruby
„ データベース:MySQL
„ 形態素解析ソフト:MeCab
実験設定(旧)
† 有害な文書100件,有害でない文書100に対
して有害度を求める
„ これらの文書はブラックワードを含まない文書
„ 実験では閾値を0.5に設定
データの種類
数
データの種類
数
正例
5,195
負例
9,605
ブラックワード
180
総単語数
79,109
実験結果(旧)
閾値
有害文書
72/100
有害で無い文書
88/100
評価実験の判定率
全体:160/200 80%
実験設定
† SVM,ベイジアンフィルタリング,共起フィルタ
リングの比較を行う
„ SVMの素性は単語のIDを用い,重みは出現回数
を用いる(libsvmを利用,設定はデフォルト)
„ ベイジアンフィルタリング,共起フィルタリングでは
閾値を0.5に設定
„ 実験データは学習データと同じデータを用いる
データの種類
数
データの種類
数
正例
10,001
負例
10,001
共起の総数
296,944,688
総単語数
39,797
比較実験(仮)
† SVM(単語IDが素性)
„ 53.2097% (10643/20002)
† ベイズ
„ 正:0.754824517548245(7549/10001)
„ 負:0.994900509949005(9950/10001)
„ 合計:87.486%(17499/20002)
† 共起
„ 正:0.99(99/100)
„ 負:1.0(100/100)
„ all:0.995(199/200)
従来技術・競合技術との比較
† メールのスパムフィルタなどで使われるベイ
ジアンフィルタや、文章分類で使われるサポー
トベクターマシーンと比較して・本技術で使う
共起辞書は、辞書の構築が比較的簡単であり
ながら、精度が高い。
新技術の特徴と想定される用途
† 新技術の特徴
■有害な文書を集め、学習することで、高精度なフィルタリン
グが可能
■フィルタリングしたい文章を集めて、単語を学習することで、
機密文章などにも応用可能
■文章を単語の集まりとして処理する為、どのような文章にも
対応可能
† 想定される用途
■有害文章、機密文章のフィルタリング
■報告書のフィルタリング
本技術に関する知的財産
■発明の名称:多彩なフォントを用いた電子的文章や言葉の
高速配信方法
■出願番号:特願2009-207852
■出願人:国立大学法人名古屋工業大学
■発明者:伊藤孝行
お問い合わせ先
名古屋工業大学 産学官連携センター
産学官連携コーディネーター 山本豊
TEL:052-735-5787
FAX:052-735-5542
e-mail yamamoto.minoru@nitech.ac.jp