「コーパスで生の日本語を分析する」 0.はじめに 1

2016 年度 日本語教育実習懇談会(2016 年 7 月 30 日 茨城キリスト教大学)
「コーパスで生の日本語を分析する」
中山健一(茨城キリスト教大学、nakayama@icc.ac.jp)
0.はじめに
目的
類義語や類義表現の使い分けが、指導書や参考書を参照してもよく分からない場合、
どのようにその使い分けを知るか、その方法を考える。
(1)言語学的な考え方
(2)無料で手軽に利用できる範囲での、コーパスの紹介(3つ)
※具体的な教授法や教えるテクニックを紹介することはしないし、できない。
話題提供者について
・国内外で日本語教育に従事。もっとも期間が長いのが国内の大学での日本語教育。
・2014 年 4 月より、本学教員に。
・専門は言語学、現代日本語の研究。
1.類義語、類義表現の使い分け-言語学的な考え方-
A 格パターンなど、狭い意味での「形式」
B 共起する単語の意味的なタイプ
C 意味の範囲の違いや、使用できる範囲の違い(広・狭、上位・下位関係)
D 文体差(書き言葉的か、話し言葉的か…)
E 位相差(男言葉・女言葉、世代差、専門語…)
・・・などなど。複数絡み合う。
もちろん、母語話者の内省(直観)が使える場合も多いが、万能ではない。
(さらにいえば、人間の脳は内省を使って文法性判断をするようにはできていない。
それ相応の訓練が必要。
)
→実例を収集・分析した上で、帰納的に答えを導き出す。
2.「コーパス」とは
・
「学術研究用に構築された、言語資料の大規模なデータベース」
・通常、電子化されたもの。広義には学術研究を本来の目的しないものも含む(市販の新聞
データベース CD-ROM、ウェブのデータ、など)
。
現在は、いくつかの大学、研究機関によって、専門的な知識・技術がなくても使えるサー
ビスが無償で提供されている。
1
2016 年度 日本語教育実習懇談会(2016 年 7 月 30 日 茨城キリスト教大学)
3.類義語の使い分けの具体例
例)
―動詞―
①「働く」と「勤める」の違い
②「覆う」と「被せる」の違い
③「冷える」と「冷める」の違い
・・・などなど
ポイントは、共起する名詞の格の形と、共起する名詞の意味的なタイプ
←たとえば、①では、前者はデ格名詞をとる、後者はニ格名詞をとる、というのでは不十分。
<コーパスその1>「①」を、「京都大学 格フレーム」で調べてみる。
ウェブから収集した日本語 16 億文を用いて自動構築した格フレーム
格フレームとは…述語(動詞)とそれが格関係をもつ語を記述したもの
「働く」:会社:5653, 企業:2640, 工場:2458, 店:2303, 現場:2128, 職場:1825, 業界:1669,
病院:1394, 派遣:1220, 施設:1179, 事務+所:1040, レストラン:702, パート:699, 日
本 :698, 住 み 込 み :680, 海 外 :658, ホ テ ル :594, 東 京 :594, シ ョ ッ プ :584, セ ン タ
ー:552,
「勤める」
:会社:12728, 企業:4226, 病院:1463, メーカー:1213, 事務+所:1164, 銀行:857,
代理+店:647, 役所:617, 商社:610, 工場:593, 機関:573, 出版+社:519, 大学:449, 学
校:435, 研究+所:403, 職場:383, 新聞+社:350, 店:339, 施設:297, センター:266,
cf. もっと一般化していうなら
「働く」=[場所デ 働く]
「勉強する」
「生活する」…と同じ
「勤める」=[組織ニ 勤める]
「所属する」
「加入する」…と同じ
<コーパスその2>「③」を、筑波大学「筑波ウェブコーパス」で調べてみる。
ウェブサイトから構築した11億語の大規模日本語コーパス。
検索ツールで、語彙の共起関係などを調べることが可能。
「~が 冷える」
:からだ、あし、てあし、おなか・・・
「~が 冷める」
:きもち、熱、ほとぼり、愛情・・・
2
2016 年度 日本語教育実習懇談会(2016 年 7 月 30 日 茨城キリスト教大学)
4.中級~上級文法の類義表現の使い分け
→説明に窮することが多い。
「文型辞典」をみてもいまいち違いが分からないことも。
例)
「~てしょうがない」
「しかたがない」
「~てたまらない」の違い
cf.参考 友松悦子ほか「どんなときどう使う 日本語表現文型辞典」アルク の記述
→ほぼ同じ!?
意味をどう説明するかも重要だが、何より重要なのは、どんなことばと一緒に使われるこ
とが多いか。使用頻度、実例数の多寡の点で、偏りがあるはず。
→典型例を示すことが大切。
<コーパスその3>国立国語研究所 「少納言」で調べてみる。
同研究所が開発した「現代日本語書き言葉均衡コーパス(BCCWJ)」を検索できるサービス。
日本語で唯一の「均衡」コーパス。
書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンル
にまたがって1億 430 万語のデータを格納。
「たまらない」
: Vしたくて/ほしくて/いたくて/かゆくて/つらくて/ねむくて/
くやしくて/うれしくて/たのしくて
「しょうがない・しかたがない」
: きがちって/きになって/腹が立って/くやしくて/
うれしくて/たのしくて
※「しょうがない・しかたがない」の違いは、文体差か。
5.おわりに
何年教えても、使い分けの説明に窮する単語や表現、文型が出てくるのは当然のこと。
そして、その疑問に100%答えてくれる参考書もコーパス提供サービスも、実はない。
(逆にそれが、日本語教師の仕事のおもしろいところ)
自分の内省に頼ること、参考書を読むことは、むろん有効であり重要だが、
コーパスを使って実例を調べてみると、疑問の解決につながることもある。
3
2016 年度 日本語教育実習懇談会(2016 年 7 月 30 日 茨城キリスト教大学)
紹介したコーパス
詳細については、それぞれのページを参照。
Google などで、
「 」のコーパス名で検索すれば、一番上に出てきます。
「京都大学格フレーム」
京都大学 大学院情報学研究科 知能情報学専攻 知能メディア講座
URL
http://nlp.ist.i.kyoto-u.ac.jp/index.php?京都大学格フレーム
「筑波ウェブコーパス」
筑波大学 日本語・日本事情遠隔教育拠点
URL
http://nlt.tsukuba.lagoinst.info/
「国語研究所 少納言」
国立国語研究所 コーパス開発センター
URL
http://www.kotonoha.gr.jp/shonagon/
「現代日本語書き言葉均衡コーパス(BCCWJ)
」について
http://pj.ninjal.ac.jp/corpus_center/bccwj/
※「中納言」なら、より本格的、高度な検索が可能(無償、要登録)
4