インターネット上の有害文章・非公 開文章の高精度フィルタリング 名古屋工業大学大学院 工学研究科 産業戦略工学専攻 准教授 伊藤孝行 発表内容 研究背景 関連研究 提案手法 フィルタリング手法 共起辞書の構築 評価実験 まとめ 研究背景と目的 SNSや掲示板等のユーザーが書き込めるサイト が増えている ユーザーが自由に記述できるため,未成年に有害な 文章が書き込まれる事がある 未成年に有害な文書は多くのサイトで対処されて いない サイトによっては人手によって処理されるが,処理する コストが高い 目的 自動的な有害文書フィルタリング手法の提案 関連研究 ベイジアンフィルタリング スパムフィルタリングで使用される スパムによく使われている単語が多いメールはスパム 一般的な単語が多い場合,スパムではないと判定される サポートベクターマシーン(SVM) 教師あり学習を用いた手法 未学習のデータに対する精度が高い 使用する関数等で大きく精度が変わる 提案手法 以下の3つのフィルタリングステップで構成 1. ブラックワードフィルタリング ブラックワードが含まれていれば有害文書 2. グレイワードフィルタリング グレイワード(有害であるとも無害であるともいえない単 語)が含まれていなければ有害で無い文書 3. 安全度フィルタリング 共起辞書を用いたフィルタリング 提案手法 有害な文書 安全度が 閾値以下である 有害度 フィルタリング 有害では無い文書 安全度が 閾値以上である グレイワードが 含まれていない グレイワードが 含まれている グレイワード フィルタリング ブラックワードが 含まれていない 入力文書 単語へ分割 ブラックワード フィルタリング ブラックワードが 含まれている 3単語間共起辞書の構築 正例(有害でない文書)と負例(有害な文書)から共起 関係を抽出 3単語間共起とは? 例:「吾輩は猫である.名前はまだ無い」の3単語間共起 [吾輩,猫,名前],[吾輩,名前,無い],[猫,名前,無い] 上記の1件のみを正例として作成したの共起辞書 単語1 単語2 単語3 正例での 出現回数 負例での出 現回数 吾輩 猫 名前 1 0 吾輩 名前 無い 1 0 猫 名前 無い 1 0 補足:形態素解析と実験用データ 単語の分割は形態素解析の後に処理を行う 形態素解析ソフトにはMeCabを利用 副詞や助詞など,単独では意味をなさない単語は省く 実験用データの取得元 正例:2chのグレイワードが含まれる記事 負例:2chのブラックワードが含まれる書き込み ブラックワード:負例を形態素解析し,人手で確認 グレイワード:負例を形態素解析し,人手で確認 安全度の計算 安全度safe(sentence)を求める式は以下 ⎧ ⎫ N p (A,B,C) ⎬ Safe(sentence) = AVERAGE ⎨ (A ,B,C )∈sentence N (A,B,C) + N (A,B,C) ⎩ p ⎭ n (A,B,C)∈sentence:sentence内に含まれる単語(A,B,C)の 組み合わせ Np(A,B,C) :(A,B,C)が正例で出現した回数 Nn(A,B,C) :(A,B,C)が負例で出現した回数 有害度計算の例 例 入力文:「吾輩は猫である.名前はまだ無い」 単語1 単語2 単語3 正例での 出現回数 負例での 出現回数 吾輩 猫 無い 15 0 猫 名前 無い 8 8 共起辞書内の対応する共起関係 有害度=(1.0+0.5) / 2 = 0.75 実験環境 計算機 CPU:Xeon(2core)*2 メモリ:8G OS:CentOS 5.3 使用ソフトウェア プログラミング言語:Ruby データベース:MySQL 形態素解析ソフト:MeCab 実験設定(旧) 有害な文書100件,有害でない文書100に対 して有害度を求める これらの文書はブラックワードを含まない文書 実験では閾値を0.5に設定 データの種類 数 データの種類 数 正例 5,195 負例 9,605 ブラックワード 180 総単語数 79,109 実験結果(旧) 閾値 有害文書 72/100 有害で無い文書 88/100 評価実験の判定率 全体:160/200 80% 実験設定 SVM,ベイジアンフィルタリング,共起フィルタ リングの比較を行う SVMの素性は単語のIDを用い,重みは出現回数 を用いる(libsvmを利用,設定はデフォルト) ベイジアンフィルタリング,共起フィルタリングでは 閾値を0.5に設定 実験データは学習データと同じデータを用いる データの種類 数 データの種類 数 正例 10,001 負例 10,001 共起の総数 296,944,688 総単語数 39,797 比較実験(仮) SVM(単語IDが素性) 53.2097% (10643/20002) ベイズ 正:0.754824517548245(7549/10001) 負:0.994900509949005(9950/10001) 合計:87.486%(17499/20002) 共起 正:0.99(99/100) 負:1.0(100/100) all:0.995(199/200) 従来技術・競合技術との比較 メールのスパムフィルタなどで使われるベイ ジアンフィルタや、文章分類で使われるサポー トベクターマシーンと比較して・本技術で使う 共起辞書は、辞書の構築が比較的簡単であり ながら、精度が高い。 新技術の特徴と想定される用途 新技術の特徴 ■有害な文書を集め、学習することで、高精度なフィルタリン グが可能 ■フィルタリングしたい文章を集めて、単語を学習することで、 機密文章などにも応用可能 ■文章を単語の集まりとして処理する為、どのような文章にも 対応可能 想定される用途 ■有害文章、機密文章のフィルタリング ■報告書のフィルタリング 本技術に関する知的財産 ■発明の名称:多彩なフォントを用いた電子的文章や言葉の 高速配信方法 ■出願番号:特願2009-207852 ■出願人:国立大学法人名古屋工業大学 ■発明者:伊藤孝行 お問い合わせ先 名古屋工業大学 産学官連携センター 産学官連携コーディネーター 山本豊 TEL:052-735-5787 FAX:052-735-5542 e-mail yamamoto.minoru@nitech.ac.jp
© Copyright 2024 Paperzz