音声翻訳システムにおける同時性と汎用性の改善 音声翻訳システムにおける 同時性と汎用性の改善 奈良先端科学技術大学院大学 情報科学研究科 助教 グラム・ニュービッグ 1 音声翻訳システムにおける同時性と汎用性の改善 背景 2 音声翻訳システムにおける同時性と汎用性の改善 音声翻訳システム ● ある言語の音声から違う言語の音声へ翻訳 音声認識 こんにちは、駅はどこですか? 機械翻訳 Hello, where is the station? 音声合成 3 音声翻訳システムにおける同時性と汎用性の改善 遅延の問題 ● 従来のシステムは 1 文の入力が終わるまで翻訳しない! 遅延 音声認識 こんにちは、駅はどこですか? 機械翻訳 Hello, where is the station? 音声合成 4 音声翻訳システムにおける同時性と汎用性の改善 本技術の目標:遅延の低減 ● 1 文が完全に終わる前に適切なタイミングで翻訳開始 遅延:減少 音声認識 こんにちは、駅は 翻訳 翻訳 Hello, 合成 どこですか? 翻訳 the station where is it? 合成 合成 5 音声翻訳システムにおける同時性と汎用性の改善 想定される用途 ● ● 講演やニュースの リアルタイム通訳 音声翻訳を通した 会話・ミーティングの効率化 6 音声翻訳システムにおける同時性と汎用性の改善 従来技術:構文解析と手書きルール [Ryu+ 04] ● 英日翻訳で、「倒置」現象に着目した手書きルール subj I went prep prep to the park with your brother 「前置詞句が終わったら翻訳開始!」 翻訳 翻訳 私は公園に行きました あなたの弟と ● 問題:両言語に精通した言語学者がルールを作成 ● 問題:漸進的な構文解析という高度な解析技術が必要 7 音声翻訳システムにおける同時性と汎用性の改善 従来技術:音声のポーズ情報を利用 [Bangalore+ 12] ● 発話中のポーズに基づく翻訳タイミングの決定 音声認識 こんにちは、 駅はどこですか? ● 問題:言語的な知識を用いないため精度低減 ● 問題:息継ぎの少ない人、言いよどみの多い人に不向き 8 音声翻訳システムにおける同時性と汎用性の改善 本技術 ● 統計的機械翻訳で用いられる翻訳モデルに着目 ● ● ● ● +データから自動構築可能 +言語情報を利用 +翻訳と同じ情報を利用するため相性が良い 具体的には ● ● ● 「フレーズ」と呼ばれる、翻訳に用いる単語列の区切 りで翻訳開始 「並べ替え確率」で同時性と精度のバランスを調整 「言語モデル適応」を行い、精度の低下を防ぐ 9 音声翻訳システムにおける同時性と汎用性の改善 フレーズベース 統計的機械翻訳( SMT ) ● 文を翻訳可能な小さい塊に分けて、並べ替える Today I will give a lecture on machine translation . Today I will give 今日は、 を行います Today 今日は、 a lecture on の講義 machine translation 機械翻訳 machine translation 機械翻訳 a lecture on の講義 I will give を行います . 。 . 。 今日は、機械翻訳の講義を行います。 ● 翻訳モデル・並べ替えモデル・言語モデルをテキスト10 から統計的に学習 音声翻訳システムにおける同時性と汎用性の改善 単語の対応付け ● 文内の単語対応を発見 太郎 が 花子 を 訪問 した 。 太郎 が 花子 を 訪問 した 。 taro visited hanako . taro visited hanako . ● 確率モデルによる自動学習が主流 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 English English English English English English English English English English English English P( 花子 |hanako) = 0.99 P( 太郎 |taro) = 0.97 P(visited| 訪問 ) = 0.46 P(visited| した ) = 0.04 P( 花子 |taro) = 0.0001 11 音声翻訳システムにおける同時性と汎用性の改善 フレーズ抽出 ● アライメントに基づいてフレーズを列挙 ホ テ 受 ルの付 the hotel front desk ホテル の → hotel ホテル の → the hotel 受付 → front desk ホテルの受付 → hotel front desk ホテルの受付 → the hotel front desk 音声翻訳システムにおける同時性と汎用性の改善 並べ替えモデル ● 単語の並べ替え方を確率的に表し、精度向上に貢献 ● 現在の単語と次の単語の順番は 4 種類に分類: 順:順番は同じ 背 の 高い 男 太郎 を 訪問 した the tall man visited Taro 不連続(右): ● 逆順:順番は逆 不連続(左): 私 は 太郎 を 訪問した 背 の 高い 男 を 訪問 した I visited Taro visited the tall man 「順」と「不連続 ( 右 ) 」の確率の和は「右確率」 音声翻訳システムにおける同時性と汎用性の改善 言語モデル ● 目的言語側の各文に確率を与える E1: Taro visited Hanako P(E1) E2: the Taro visited the Hanako LM E3: Taro visited the black paper ● P(E2) P(E3) 良い言語モデル:流暢性の高い文に高い確率を P(E1) > P(E2) P(E1) > P(E3) 音声翻訳システムにおける同時性と汎用性の改善 提案手法 音声翻訳システムにおける同時性と汎用性の改善 提案手法 1 : フレーズを用いた訳出タイミング決定 ● 認識された単語を 1 語ずつ入力 ● 単語列が翻訳モデルに存在する限り翻訳しない 翻訳モデル hello→ こんにちは where is→ どこですか where→ どこ the→ その 入力文字列 hello where is the “hello” “hello where” モデルに存在 存在しない ↓ ↓ 保留 出力 “hello” the station→ 駅 “where is” “where is the” モデルに存在 存在しない ↓ ↓ 保留 出力 “where is” station “the station” 発話終了 ↓ 出力 “the station” 音声翻訳システムにおける同時性と汎用性の改善 手法1の問題点 ● 翻訳精度の低下につながる場合も 通常のフレーズベース翻訳 hello where is the station こんにちは 駅 は どこ ですか hello where is the station こんにちは どこ ですか 手法1を用いた場合 駅 は 音声翻訳システムにおける同時性と汎用性の改善 提案手法2: 右確率を用いた訳出タイミングの調整 ● まず、手法 1 を用いて訳出タイミングを仮確定 ● フレーズの右確率が閾値を上回った場合のみ本確定 例 ( 閾値 = 0.8): hello where “hello” モデルに存在 ↓ 保留 ● is the station “hello where” “where is” “where is the” “the station” 存在しない モデルに存在 存在しない 発話終了 ↓ ↓ ↓ ↓ “hello” を選択 保留 “where is” を選択 出力 ↓ ↓ “where is 右確率 0.9 > 0.8 右確率 0.6 < 0.8 the station” ↓ ↓ 出力 “ hello” 出力しない 閾値が 1.0 の場合は文ごと、 0.0 の場合はフレーズごと 音声翻訳システムにおける同時性と汎用性の改善 手法 2 の問題 ● 言語モデルは基本、文ごとに学習される ● ● 文より短い単位の翻訳に向かない 例:文末表現を置く強い傾向 hello where is こんにちは。 どこですか? the station 駅です。 音声翻訳システムにおける同時性と汎用性の改善 提案技術 3 : 言語モデルの適応 ● 言語モデルを学習する前に、提案技術2を言語モデル 学習データに適応 従来の言語モデル学習 こんにちは、駅はどこですか。 どうやって行けますか? 文分割 こんにちは、 駅は どこですか。 どうやって 行けますか? 言語モデル 学習 文ごとの 言語モデル 提案手法 言語モデル 学習 句ごとの 言語モデル 音声翻訳システムにおける同時性と汎用性の改善 実験的評価 ● 4通りの実験的評価: ● ● ● ● ● 2通りの評価項目: ● ● ● 日英旅行対話文 (ja-en) 日英 11 単語以上の旅行対話文 (ja-en 11+) 英日旅行対話文 (en-ja) 仏英ニュース文 (fr-en) 精度 :BLEU ( 参照は ja-en,en-ja で 14 文 , fr-en で 1 文 ) 遅延 : 秒 右確率は様々な閾値で足切り 音声翻訳システムにおける同時性と汎用性の改善 精度 (BLEU) 評価結果 1 : 全ての設定において遅延が減少 80 70 60 50 40 30 20 10 0 t=1 t=0 0 en-ja ja-en ja-en (11+) fr-en 2 4 6 8 10 12 14 遅延 ( 秒 ) [Ryu+ 04] の研究と違い多くの言語で容易に適応可能 ! 音声翻訳システムにおける同時性と汎用性の改善 評価結果 2 : ポーズ情報を用いた場合より速い訳出 50 精度 (BLEU) 45 40 35 本技術 30 25 20 ポーズ 同等の精度で20%速度向上! 1 1.5 2 2.5 3 3.5 4 遅延 ( 秒 ) [Bangalore+ 12] より速い訳出が可能! 4.5 音声翻訳システムにおける同時性と汎用性の改善 まとめ 音声翻訳システムにおける同時性と汎用性の改善 まとめ ● 並び替えを考慮したの提案 ● ● ● 翻訳モデルに含まれるフレーズで自動学習 並べ替えの確率を考慮 利点 ● ● シンプルかつ言語非依存 精度・遅延のバランスを調整 音声翻訳システムにおける同時性と汎用性の改善 実用化に向けた課題 ● 現在自動音声翻訳のデモが行えるレベルまで開発済み ● 現状でもすぐに既存の翻訳システムに適応可能な精度 ● 単語1語1語をリアルタイムで書き起こす音声認識と 合わせた実験は今後の課題 音声翻訳システムにおける同時性と汎用性の改善 企業への期待 ● ● 音声翻訳技術を持つ企業との共同研究を希望 以下の商品を開発中、もしくは展開を考えている企業 には、本技術の導入が有効と思われる ● ● ● テレビやテレビ関連の通信機器 携帯電話・スマートフォーン 会議や通信関係のソフトウェア 音声翻訳システムにおける同時性と汎用性の改善 本技術に関する知的財産権 ● 発明の名称:テキストデータ分割装置、テキストデータ 分割方法、テキストデータ分割プログラム 及び翻訳装置 ● 出願番号 :特願 2013-97857 ● 出願人 ● :奈良先端科学技術大学院大学 発明者 :藤田 朋希、グラム ニュービッグ、 サクリアニ サクティ、戸田 智基、 中村 哲 音声翻訳システムにおける同時性と汎用性の改善 産学連携の経歴 ● 2009-2010 年 : 教育測定研究所と共同研究実施 ● 2011 年 : パナソニックと共同研究実施 ● 2012 年 ~: 日本電気、情報通信研究機構 と共同研究実施 ● 2013 年 ~: 日本電信電話と共同研究実施 音声翻訳システムにおける同時性と汎用性の改善 お問い合わせ先 奈良先端科学技術大学院大学 産官学連携コーディネーター 那脇 勝 TEL 0743-72-5930 FAX 0743-72-5015 e-mail k-sangaku@ad.naist.jp
© Copyright 2024 Paperzz