1 2011.11.27. 数学特論 A3 の後半 担当:原 隆(数理学研究院) :伊都キャンパス数理研究教育棟 219 号室,phone: 092-802-4441, e-mail: hara@math.kyushu-u.ac.jp, http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html Office hours: 月曜の午後 5 時∼6時半頃,僕のオフィスにて(ただし,会議などでつぶれることもあります). なお講義終了後にも質問を受け付けますし,これ以外でもお互いの都合の良い時間にお相手します.メイル下さい. Probability theory is a measure theory, with a soul. (Marc Kac) 講義の概要:「確率論」は皆さんが既に学んだ「統計学」の基礎になるものでもあるだけでなく,それ自身も 非常に面白いものである.この講義では,4 年生・大学院生向けに開講される本格的な確率論の講義への橋渡しと して,確率論の初歩(枠組み),条件付き確率,極限定理(大数の法則,中心極限定理),ランダムウォークなどを 取り上げ,確率論の世界に触れてもらうことを目的とする. 講義の暫定的計画: おおまかに以下のようになる予定. (ある程度の内容は統計の講義ともかぶるので,どのようにしたら飽きられな いか苦慮しております. )ランダムウォークとマルコフ過程の順番は入れ替えるかもしれません. 1. 確率の考え方の基礎 2. 条件付き確率とベイズの定理 3. 確率論における極限定理(大数の法則と中心極限定理) 4. マルコフ過程 5. ランダムウォーク 6. パーコレーションなど,物理と関連した話題 評価方法: この講義は確率論入門でもあるから,ガチガチの数学の講義,試験は行わない.評価は基本的にレ ポート(講義期間中に何回か出す)をもとにして付ける予定である. 参考書: • Sheldon Ross: A First Course in Probability (MacMillan, 1988).私がテキサスで使っていた教科書.非常 に良い.英語の勉強にもなる. • 楠岡成雄:確率・統計(森北出版,新数学入門シリーズ7,1995).非常に良いが,現在,絶版になっている らしい. • 小針あき宏(「あき」は「日」の右に「見」) :確率・統計入門(岩波書店,1973).この講義のレベルに割合 あった,良い本だとおもう. • Ya.G. シナイ:確率論入門コース(シュプリンガーフェアラーク東京,1995).ちょっと程度が高い本だが, 著者独自の切り口が随所に見られて面白い本である.この講義で確率論に興味が湧いたなら自分で挑戦して みて欲しい.ただし,至る所に誤植があるので,注意. この科目に関するお願い:世相の移り変わりは激しく,僕が学生だったときには想像すらできなかった ことが大学で行われるようになりました.そのうちのいくつかは良いことですが,悪いこともあります.オヤジだ との批判は覚悟の上で,また数学科の学生さんには必要のないことだとは思うものの,互いの利益のために以下の ルールを定めます. • まず初めに,学生生活の最大の目的は勉強すること であると確認する. 2 • 講義中の私語,ケータイの使用はつつしむ.途中入室もできるだけ避ける(どうしても必要な場合は周囲の邪 魔にならないように).これらはいずれも講義に参加している 他の学生さんへの 最低限のエチケットです. • 僕の方では時間通りに講義をはじめ、時間通りに終わるよう心がける. • 重要な連絡・資料の配付は原則として講義を通して行う. 「講義に欠席したから知らなかった」などの苦情は 一切,受け付けない. • 連絡の補助として僕のホームページも使う —— アドレスは最初に載せた.なお,上の長いアドレスを用いな くとも, 「原隆」で検索すれば今のところ, 「Hara Home Page(J)」というのがトップに来るから,そこから「講 義のページ」にいけば,この科目のページがあります. • レポートを課した場合,その期限は厳密に取り扱う. • E-mail による質問はいつでも受け付ける(hara@math.kyushu-u.ac.jp)ので積極的に利用するように.ただ, 回答までには数日の余裕を見込んで下さい. 重要なお断り:現代の確率論は異常に発達してしまい,日常的な素朴な出発点をともすれば忘れがちである. 実際,大学での「確率論」の講義は測度論を下敷きにした高度なものがほとんどである.これには十分な理由 がある —— このような高度な技を持ってして始めて扱える面白い問題が,世の中にはいくらでもあるし,そ のような問題では「素朴」な直感が往々にして裏切られるからだ.しかし,これは研究者には良くても,初学 者にはハードルが高すぎる可能性もある.また,そのような高度なことを強調するあまり,そもそもの確率論 の出発点を初学者は忘れやすい. そこで,この講義では測度論を必要とするような高度な話題は扱わない(または,扱っても,適当にごまかす). その代わりに確率論の基本概念とその面白さを皆さんに理解してもらい,4 年次の高度な議論への橋渡しを行 うことを最大の目的とする.4 年次の講義を聞いた際,技術的な細部に溺れることなく,冒頭の Marc Kac の 言葉が実感できるようになって頂ければ本望である. この講義で扱いたい問題の例 問題 1.(条件付き確率)ある病気にかかっているかどうかを調べる検査があり,この検査の精度は 99% である. つまり,ある人が病気であるのに病気でないと誤判断する(偽陰性)確率は 0.01,病気でないのに病気だと誤判断 する(擬陽性)確率も 0.01 である. 一方,この病気は割合に稀なものであって,全人口のうち,0.01%(割合で言えば,0.0001)くらいの人がこの病 気にかかっていることがわかっている. さて,僕がこの検査を受けたところ,僕は陽性(病気だ!)と判断されてしまった.僕が本当に病気である確率 はどれくらいと思ったら良いか? 問題 2.(大数の法則)我々の身の回りにある空気は分子からできていることは高校でも学んだ通り.分子は不規 則な運動をしているはずなのに,我々の感じる圧力は一定だ.この事実の数学的基礎付けは可能か? 問題 3.(マルコフ過程)世の中にはランダムな規則で動いているものが一杯あるが,それらの中には,平均すれ ば時間的に一定(定常)な状態を保っているものも多い.これはなぜなのか? 問題 4.(ランダムウォーク)京都のように碁盤目になっている市街がある.非常に酔っぱらった人がいて,自分 の家が分からなくなってしまった.この人は四つ辻に来るたびに自分の 4 つの可能な方向からランダムに選んで進 む(後戻りもあり)ことをくり返す.この人は果たして自宅にたどり着けるだろうか?たどり着けるとしたら,そ れまでにかかる時間はどのくらいか?(これは単に酔っぱらいだけの問題ではない. 「拡散」と呼ばれる,物理・化 学・生物で非常に重要な現象のモデル化である. ) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 3 確率論の基礎 1 1.1 確率論の舞台 — 事象と標本空間 現実の問題の「確からしさ」を議論するのはなかなか大変である.そこで,数学ではまず,現実から少し切り離 した形で,考えやすい舞台を設定する. 定義 1.1.1 可能な結果の全体からなる集合を標本空間(sample space)S と言う.標本空間の元(つまり,一 回の「実験」の結果になりうるもの)を標本点または根元事象と言う. 標本空間が有限でない場合はいろいろとややこしいことが起こるので,この講義では主に標本空間が有限の場合 (および有限からのアナロジーで理解できる場合)を考える. 定義 1.1.2 数学的には事象とは単に標本空間の部分集合,つまり「根元事象の集まり」のことである.なお, 事象には空集合(起こり得ないこと),および標本空間全体も含めて考える. 事象を標本空間の部分集合として定義するのは,以下の事象の演算ともあっている. 定義 1.1.3 2つの事象 E, F に対して, • その和事象を集合としての和集合 E ∪ F として, • その積事象を集合としての交わり E ∩ F として 定義する(事象の場合,E ∩ F を EF と略記することが多い).更に, • E c を S\E (E の補集合)として定義し,E の 余事象と言う. 日常言語に直せば,E ∪ F とは E または F のどちらかが起こること,E ∩ F = EF とは E と F の両方が起こ ることを意味する.また,E c は日常言語では「事象 E が起こらないこと」に相当する. なお,以上をまとめると,以下の「事象の公理」になる.有限集合なら今までの定義でよいが,S が無限の時は ちと問題になるので,無限の場合は以下の公理を用いるのが良い. 定義 1.1.4 (事象の公理) Sample Space S が与えられたとき,S の事象の集まりとは,以下を満たす S の部 分集合の集まり(部分集合族)F のことである. 1. F 3 ∅ 2. E ∈ F ならば E c ∈ F 3. E1 , E2 , E3 , . . . ∈ F に対し, ∞ ∪ Ei ∈ F i=1 1.2 数学における確率 今までは単に確率をやる舞台を設定したにすぎない.これからいよいよ, 「確率」を考える.数学ではある意味で 「天下りに」確率を定める.天下りという意味はこれから徐々にわかるはずだ.標本空間が有限集合の場合から始 め,標本空間 S = {e1 , e2 , . . . , eN } を考える(ej が根元事象). そもそも,確率とは何だろうか?いろんな事象の「起こり易さ」を表すもののハズである.その「起こり易さ」は根 元事象 ej の「起こり易さ」を決めれば決まるだろう.だから,要するに,根元事象の起こり易さ pj (j = 1, 2, . . . , N ) をすべて与えれば確率が決まったと言えるのではないか?しかし,各根元事象の起こりやすさを,現実に即して決 めるのはなかなか難しい.そこで,数学では確率が満たすべき外枠を与えることから始める. 数学特論 A3 の後半 4 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 外枠を与えるために,根元事象の確率 pj (j = 1, 2, . . . , N ) がどんな性質を満たすべきを考えよう.まず,こ れは確率だから 0 と 1 の間にないといけない.更に,S そのものというのは全事象だからこの確率は 1 であるべ し.要するに 0 ≤ pj ≤ 1, N ∑ pj = 1 (1.2.1) j=1 であるべきだ,ということになる.そして,根元でない事象 E = {e1 , e2 , e3 , . . . , en } については, (E の確率)= n ∑ pj (1.2.2) j=1 となるはずである.と言うのも,E = {e1 } ∪ {e2 } ∪ {e3 } ∪ . . . ∪ {en } であるので,E とは 「e1 か,e2 か,. . . ,en のどれかが起こる」事象だから,それぞれの事象の確率の和になるのが自然. これが数学での確率論の出発点である.要するに • sample space S 上に根元事象の確率 pj を (1.2.1) を満たす形で与え, • 根元事象でない一般の事象 E の確率を (1.2.2) で計算する. それで,このルールを満たすものを全て確率と認めるのである. (どのように pj を選ぶか,は個々の問題に応じて うまく決める.この決め方が,どのようなモデルを選択するか,ということになる. ) さて,上のように決めた「それぞれの事象の確率」はどんな性質を満たしているだろうか?上では根元事象から確 率を決めたが,そうでない場合 — つまり,根元事象の和事象である色々な事象の確率から決めた方が楽な場合 — も(後で)出てくる1 .そのために, (根元事象から出発しない)抽象的な確率の性質を公理としてまとめておく2 . 定義 1.2.1 (確率の公理,簡単バージョン) Sample Space S が与えられたとき,S 上の確率(または確率測度) とは,以下を満たす S 上の関数 P のこと.すなわち,S の部分集合 E のそれぞれについて関数の値 P [E] が 定まり,かつ 1. 全ての E ⊂ S に対して 0 ≤ P [E] ≤ 1. 2. P (S) = 1 3. E1 , E2 , E3 , . . . ⊂ S が互いに排反(mutually exclusive),つまり 「i 6= j ならば Ei ∩ Ej = ∅」,のとき, [∪ ] ∑ P Ei = P [Ei ] i i もちろん,上をみたす関数 P が与えられたとき,P [E] を「事象 E の起こる確率」という.なお,sample space S とその上の確率測度 P をあわせた (S, P ) を確率空間と言う. 上の性質を満たしている P なら何でも確率と認めてしまおう,というのである.実際にどのような P を採用す るかは,もちろん,考えている具体的問題によるが,このように「実際にどんな P を採用するか」と「P の満たす べき枠組み(確率の公理)」を分離したのが Kolmogorov の偉大な着想であった. この確率の性質については以下が成り立つ. (ベン図を書いて理解した上で公理から厳密に導けるのが望ましい. ) 命題 1.2.2 P [E c ] = 1 − P [E] E⊂F =⇒ P [E] ≤ P [F ] P [E ∪ F ] = P [E] + P [F ] − P [EF ] (1.2.3) (1.2.4) (1.2.5) p,裏が出る確率が q = 1 − p である硬貨がある.この硬貨を 100 回投げるこ とを考える.この場合の根元事象は「1 回目に表,2回目に裏,3 回目も裏,4 回目は表,5 回目は裏. . . 」というような, 「100 回までのそれぞ れに何がでたか」である.この一つの根元事象の確率を計算するには, 「各回の結果が独立であると仮定して」表が出た回数だけ p,裏が出た回 数だけ q をかける.これは根元事象の確率を直接与えるというよりも,根元事象を「一回目表」「2回目裏」「3 回目裏」「4 回目表」. . .という 事象の積事象として考えたと思った方が自然である.このような意味で, 「根元事象の確率を直接与えるよりも搦め手から決める方が自然」な例 は応用上,非常に多い 2 通常,確率空間は (S, F, P ) と書かれる.ここで F は「どのくらいの細かい情報までを事象として扱うか」の目安を与えるものだが,S が有限集合の場合は S の部分集合の全体と思って良いので,特に書かないのが普通.S が無限集合の場合はいろいろとややこしい事が起こる が,それは 4 年生になってのお楽しみ. 1 皆さんが高校でやったはずの例を挙げよう.表が出る確率が 数学特論 A3 の後半 1.3 5 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 数の数え方の復習 高校で習ったことの復習ではあるが,時々使うのでまとめておく.もちろん,以下のようなことは頭から覚え込 むのではなく,自分で納得して理解するようにすべし. • n > 0 に対して, n! := n · (n − 1) · (n − 2) · · · 3 · 2 · 1,また 0! = 1 と定義する. ( ) n n! • 0 ≤ k ≤ n に対して, := n Ck = と定義し,二項係数と呼ぶ. k k!(n −(k)! ) r ∑ n n! • 0 ≤ ni (i = 1, 2, . . . , r), ni = n のとき, = を多項係数と言う. n1 ! n2 ! n3 ! · · · nr ! n1 n2 n3 · · · nr i=1 定義 1.3.1 1 から n までの数字を書いた n 枚のカードがあって,これから k 枚を取り出す場合を考える.取り出し方(戻し方)に応じ て,大体3とおりある. Case 1: n 枚のカードから繰り返しを許して k 枚とり,その結果を並べる場合.この場合の結果は (a1 , a2 , . . . , ak ) という列に なる(aj は j 番目に出たカードの目).ここでそれぞれの aj は勝手に 1 から n の値をとれるので,結果の総数(場合の数)は n · n · n · · · n = nk (1.3.1) Case 2: n 枚のカードから繰り返しを許さないで k 枚とり,その結果を並べる場合.やはり結果は (a1 , a2 , . . . , ak ) の形にな るが,今回は aj は全て別のものにならざるを得ない.a1 は n 通り,a2 は a1 をよけるから (n − 1) 通り,と考えて結果は n · (n − 1) · (n − 2) · · · (n − k + 1) = n! (n − k)! (1.3.2) Case 3: n 枚のカードから繰り返しを許さないで k 枚とるが,その順序は気にしない場合.このときは Case 2 のものを 「k 個の数字を並べる並べ方」k! で割ったものになる: n! 1 × = (n − k)! k! ( ) n k (1.3.3) ホンの少しだけ,これらの応用例を挙げておく.これらの証明は帰納法でもできるが,Case-3 のような数え方で 理解するのが良いと思う. ( ) ( ) ( ) n n−1 n−1 = + . k k−1 k n ( ) ∑ n k n−k n 命題 1.3.3 (二項定理) 1 ≤ n では,(x + y) = x y . k 命題 1.3.2 1 ≤ k ≤ n に対して, k=0 Case 4. なお,補足的に Case ∑r 3 の一般化を考えておく.n 枚のカードを,それぞれ n1 , n2 , . . . , nr 枚のカードからなる r 個 のグループに分ける場合( i=1 ni = n).この場合はまず n 枚から n1 枚を取り出し,次に n − n1 枚から n2 枚を取り出し, 次に n − n1 − n2 枚から n3 枚を取り出し. . .と考えて ( ) n n1 ( × n − n1 n2 ) ( × n − n1 − n2 n3 ) × ··· × 1 = n! = n1 ! n2 ! n3 ! · · · nr ! ( n n1 n2 n3 · · · nr ) (1.3.4) となることがわかる. 命題 1.3.4 (多項定理) n ≥ 0 に対し, (x1 + x2 + x3 + · · · + xr )n = ∑ (x1 )n1 (x2 )n2 · · · (xr )nr . n1 ,n2 ,··· ,nr ≥0 n1 +n2 +...+nr =n (1.3.5) 数学特論 A3 の後半 1.4 6 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 確率変数 今,確率空間 (S, P )(標本空間 S とその上の確率 P )が与えられたとする.(S, P ) 上の確率変数とは,大ざっ ぱには「その値が確率的に(ランダムに)変動する数」のこと.土台になる確率空間を考えた上での確率変数だか ら,それぞれの値をとる確率は(原理的に)計算できる.例えば, 例 1.4.1: さいころを一回投げる場合,出た目の数を X とすると,X は 1, 2, 3, 4, 5, 6 のどれかをとる確率変数. P [X = i] = 1/6 と言うのが自然(i = 1, 2, 3, . . . , 6). 例 1.4.2: さいころを2つ投げるとき,出た目の合計を Z とすると,Z は 2 から 12 の値をとる確率変数. 1 1 1 , P [Z = 3] = , P [Z = 4] = など. P [Z = 2] = 36 18 12 例 1.4.3: 宝くじを一枚買ったとして,それが当たった賞金の額も確率変数(ハズレは 0 円として). 1.5 期待値と分散 定義 1.5.1 確率変数 X が x1 , x2 , . . . , xn の値をとり,その確率が P [X = xi ] = pi n (∑ ) pi = 1 (1.5.1) i=1 と与えられているとする.このとき,X の期待値 を E[X] := hXi := n ∑ pi xi (1.5.2) i=1 と定義する. (数学では E[X] の記号を,物理などでは hXi の記号を用いることが多い. )また,X の分散 を [( ] )2 [ ]2 ( )2 2 Var[X] := E X − E[X] = E X − E[X]2 = X 2 − hXi = X − hXi (1.5.3) と定義する. X が連続の値を取り,その確率密度が ρ(x) で与えられている場合には, ∫ ∞ E[X] := x ρ(x) dx −∞ として期待値を定義する.また,確率変数 X の関数 f (X) の期待値は ∫ ∞ E[f (X)] = f (x)ρ(x) dx −∞ と書ける. [f (X) そのものは確率変数だから,f (X) の期待値を定義に従って計算すると上の表式に一致する. ] (少し脱線)事象 F の確率を期待値の形で書くことができる.すなわち,関数 I[F ] を 1 (F が起こるとき) I[F ] := 0 ( F が起こらないとき) (1.5.4) として定義すると3 , P [F ] = E[ I[F ] ] = hI[F ]i となる.つまり,F の起こる確率は関数 I[F ] の期待値 なのだ. 3 この関数 I を事象 F の指示関数(indicator function)とよぶ (1.5.5) 数学特論 A3 の後半 7 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 期待値の重要な性質はその線形性である.すなわち,確率空間 (S, P ) における確率変数 X, Y に対して, E[X + Y ] = E[X] + E[Y ] (1.5.6) 命題 1.5.2 確率空間 (S, P ) における確率変数 X, Y と実定数 a > 0 に対しては以下が成り立つ: E[X + Y ] = E[X] + E[Y ], E[aX] = aE[X] Var[aX] = a2 Var[X] Cov(X, Y ) := h(X − hXi)(Y − hY i)i . Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y ), (1.5.7) (1.5.8) (1.5.9) Cov(X, Y ) は X と Y の共分散と言う. 註: これらの結果は X, Y の分布が独立でなくても成り立つ. 確率変数 X と Y が任意の A, B ⊂ R に対して P [X ∈ A かつ Y ∈ B] = P [X ∈ A] P [Y ∈ B] (1.5.10) を満たすとき, X と Y は独立な確率変数と言う4 .X と Y が独立な場合には, E[XY ] = E[X] E[Y ], Var[X + Y ] = Var[X] + Var[Y ] (1.5.11) が成り立つ. 1.6 チェビシェフの不等式とその仲間 前節でも, 「分散は確率変数のばらつきの目安を与える」と言ったが,ここではもう少し定量的な議論を行う.こ こでも確率空間 (S, P ) 上の確率変数 X を考える. 命題 1.6.1 正の値のみをとる確率変数 X と任意の正の数 a に対して, P [X ≥ a] ≤ hXi a (マルコフの不等式) (1.6.1) がなりたつ.また,一般の確率変数 X と任意の正の数 a に対して, P [|X − hXi | ≥ a] ≤ Var[X] a2 (チェビシェフの不等式) (1.6.2) が成立. (どちらの不等式でも,右辺の分散が存在しないときは右辺には意味がないけど. ) 調子に乗って似たような不等式を作ることもできる.例えば,µ = hXi と略記すると P [|X − µ| ≥ a] ≤ h|X − µ|n i an 同様に,任意の a, b > 0 に対して (a > 0, n は任意の正の整数) eb|X−µ| P [|X − µ| ≥ a] ≤ . eab また,マルコフの不等式の仲間として, (X が非負の値しかとらないとき) bX e P [X ≥ a] ≤ ab e (1.6.3) (1.6.4) (1.6.5) など.これらの不等式は勿論,右辺の期待値が存在しなければ意味がないが,存在する場合には(特に a → ∞ に ついて)強力なものになる.実際の応用については後述. 4 事象 E, F が独立のとき,X = I[E], Y = I[F ] とすると,X, Y はここの意味で独立である.なので,この言葉遣いは自然だろう. 数学特論 A3 の後半 8 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 条件付き確率とベイズ推定 2 2.1 独立な事象と条件付き確率 まず,確率論で最も重要な概念(?)とでもいうべき, 「独立性」を導入する. 定義 2.1.1 (独立な事象) 確率空間 (S, P ) 中の事象 E, F が, P [E ∩ F ] = P [E] P [F ] (2.1.1) を満たすとき,F と E は独立な事象 であると言う. 日常言語で言えば,E と F が独立とは,E と F の起こり方が無関係(F が起こっても起こらなくても,E の 起こり方には影響がない)という場合にあたる.勿論,世の中には独立でない事象の方が多い(と言うか,大抵の 事象は何らかの形で関係している).しかし,独立でない事象も,近似的に独立と看做せることは非常に多い.独 立な事象については(後々で見るように)非常に多くのことが言えるので,また,近似的に独立な事象でも独立な 事象に対する定理が近似的に成り立つことも多いので5 独立な事象を考えるのは非常に重要なのである. E, F が独立でない場合は F の起こり方が E の起こり方に影響しているわけだ.影響の度合いを測るため, 「条 件付き確率」を導入する. 定義 2.1.2 (条件付き確率) 確率空間 (S, P ) 中の事象 E, F を考える.P [F ] 6= 0 の場合に, P [ E | F ] := P [E ∩ F ] P [F ] (2.1.2) を F の下で E が起こる条件付き確率 と言う. 註 2.1.3 E と F が独立の場合はもちろん,P [E|F ] = P [E] となる.条件付き確率を先に定義して,この式を独立 性の定義とする流儀もある. 場合によっては,P [E] そのものよりも P [E|F ] と P [F ] の方が良くわかる場合があり,この場合 P [E] = P [E|F ] P [F ] + P [E|F c ] P [F c ] (2.1.3) として P [E] を計算することもある.条件付き確率そのものに興味がある場合もあるが,このような計算や後述の ベイズ推定において,条件付き確率を計算の中間段階として利用する場合も非常に多い(詳しくは講義で). 2.2 ベイズの公式と推定 ここでは条件付き確率の,今までとは少し違った解釈を学ぼう.すなわち P [F | E] は 「E が起こったという条 件の下で F が起こる確率」なのだが,解釈としては 「E という情報を知った後で F の確率をどのように設定する のがよいか」を示す式とも考えられる.この節では,このような解釈に基づく推論を考える. 5 もちろん,どの程度「近似的に独立」ならどの程度の定理が成り立つかはよくよく研究する必要があるが 数学特論 A3 の後半 9 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 命題 2.2.1 (Bayes の公式) 確率空間 (S, P ) を考える.まず,E, F ⊂ S に対して P [F | E] = P [F ∩ E] P [E | F ] P [F ] = P [E] P [E | F ] P [F ] + P [E | F c ] P [F c ] が成立.また,事象 Fi (i = 1, 2, . . . , k )が互いに排反(Fi ∩ Fj = ∅ for i 6= j ),かつ (2.2.1) k ∪ Fi = S を満たすと i=1 きは, P [Fj | E] = P [Fj ∩ E] P [E | Fj ] P [Fj ] = k P [E] ∑ P [E | Fi ] P [Fi ] (2.2.2) i=1 が成立. 上の式は単に条件付き確率の定義 P [F ∩ E] P [E] (2.2.3) P [E | Fi ] P [Fi ] (2.2.4) P [F | E] = と (2.1.3) の一般化 P [E] = k ∑ i=1 を組み合わせただけのものである.しかしそうは言っても,P [E] の計算に (2.2.4) が不可欠な事例が多々あるから, 応用上は非常に役立つ.また,解釈としても,左辺は E で条件づけているのに,右辺は Fi で条件付けていて,条 件付けの立場が逆転しているように見えるのも面白い. 下の問は最初に述べた問 1 そのものである.ただ,正直に言って,僕にとっては下の問の答えの方が直感と合わ ないように感じる「検査が間違う確率 p, q は 0.01%なんだよ.この検査は 99.99%正しいんだから,君は病気!」と 言われたらどうします? 問 2.2.2 (問 1 again)かなり稀な病気の血液テストを考える.このテストの誤差の入り方は, • この病気にかかっている人をテストすると (1 − p) の確率で「病気だ」と正しく判定するが,残りの p の確 率で見逃してしまう • 健康な人をテストすると (1 − q) の確率で「健康だ」と正しく判定するが,残りの q では(健康なのに)「病 気だ」と言ってしまう となっている.さて,独立な疫学的調査から病気の人の割合は r であるだろうとわかっている(p, q, r はすべてゼ ロに近いがゼロではない). 僕の検査結果は陽性(病気だ)だった.僕が本当に病気である確率,健康なのに間違って病気と診断された確率, をそれぞれ求めよ. 問 2.2.3 ある工場ではカメラのフラッシュ6 を作っている.通常の工程では不良品(光らない)が出る割合は p で ある(つまり「N 個のうち pN 個が不良」)が,今日のだけ,担当者の居眠りのために不良品が q の割合で混じっ てしまったようである(0 < p ≤ q 1 とする).さて,ここにフラッシュが N 個づつ入った箱が k 個ある.k 個 の箱のうち (k − 1) 個には昨日までに正常に製造されたものが入っており,残りの一つには今日(不良率 q で)製 造されたものが入っていることまではわかっているが,どの箱に今日の製品が入っているかはわからない.本来な 「抜き取り検査」を行う らばこれら k 個の箱を全て廃棄処分にすべきであるが,それは余りにもったいないと考え, ことにした.以下の a, b のそれぞれの場合について,問に答えよ. a. • 今,一つの箱を選び,その中からフラッシュを一つ取り出して点火したところ,光らなかった(不良品). この箱に入っているのは今日製造された製品である確率を求めよ. 6 多分,今の学生さんにはわからないと思うが,昔のカメラには使い捨てのストロボ(一回光ったら終わり)のようなものを使っていたので す.その使い捨ての電球をフラッシュといいました 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 10 • 同じ箱からもう一つ取り出して点火すると,またもや不良品であった.この箱に入っているのは今日製 造された製品である確率を求めよ. b. (a とは無関係)全ての箱からフラッシュライトを一つずつ取り出して点火したところ,箱 A から取り出し たもののみ不良品,残りは正常であった.箱 A に入っているのは今日製造された製品である確率を求めよ. 言うまでもないことであるが,こんな時はあくまで k 箱全てを捨てるべきであり,上のような計算に基づいて「最 も不良品の多そうな箱以外を全て売ってしまおう」などと言うのは非常にマズイ! (なお,わざわざ「フラッシュ」 などというものを持ち出したのは,一回テストしたら使い物にならなくなるものを例にしたかったため — 非破壊 検査ができない場合の推定法) 問 2.2.4 ○○科目の期末試験は(数学ではあり得ないことに)○×式の問題で,各問は m 個の選択肢から一つ正 解を選ぶ形になっています.A 君はかなり怠けていたので,実力で(つまり,まぐれ無しで)正しく答えられる確 率は各問毎に p であると思われます(p < 1/2).答を正しく知っているときは勿論,A 君はその正解を答えます が,答がわからないときはヤケクソで m 個の答から等確率で 1 個を選びます.さて, 1. ある一問に対して(まぐれであれ何であれ)A 君が正解を答える確率はいくらでしょう? 2. ある一問をテストしてみたところ,A 君は正解を答えました.このとき,A 君が実際に答を知っていた(ま ぐれ当たりではない)確率はいくらでしょう? 3. 以上の結果を解釈せよ. どのような p, m の値の場合に「マグレ当たり」が多くなるか,考えてみよう. 問 2.2.5 行方不明の飛行機を捜索中である.現在,墜落した可能性のあるのは 1, 2, 3 の3地区に限ること,およ びこれらの3地区に墜ちている確率は等しい(つまり 1/3)こと,までは絞り込んだ.これから捜索に入るが,厳 しい気象条件のため,確実に見つけられる保証はない — 実際に i-地区に墜ちていたとしても,確率 pi で見逃すだ ろうと思われる(pi 1). まず 1-地区を捜索したところ,飛行機は見つからなかった.この事実から,i-地区に墜ちている確率を推定せよ (i = 1, 2, 3). 問 2.2.6 (Laplace) i = 0, 1, 2, . . . , k と(非常に小さな)印が付けられた (k + 1) 個のコインが壺に入っている. これらは非常にいびつなコインで,i 番目のコインを投げたときに表が出る確率は i/k となるように調節されてい る.目隠しをしたままこの壺から一枚のコインを選んで実験をする.以下の問いに答えよ. 1. 取り出したコインを一回投げたところ,表が出た.このコインが i 番目のコインである確率はいくらか? (i = 0, 1, 2, . . . , k ) 2. 取り出したコインを更に投げ続け,合計 n 回投げた.結果は全て表だった.このコインが i 番目のコインで ある確率はいくらか?(i = 0, 1, 2, . . . , k ) 3. 取り出したコインを更にもう一回(つまり通算で (n + 1) 回目)投げる事にした.このとき,やはり表が出る 確率はいくらか? 4. 上の小問 2, 3 の答はそれほど簡単にならなかったかも知れない.そこでこれらの確率が k → ∞ の極限でど うなるか,求めてみよう.結果は直感と合うだろうか? (注)この問では,コインは最初に一枚取り出したら,同じ物を使い続ける.コインを何回か投げるとき,一回ご との結果は独立だとする.また,コインについている印は大変小さいので,取り出したコインがどれかは見ただけ ではわからないものとする. (そうでないと,小問 2, 3 が面白くない. ) 問 2.2.7 3人の射撃手(1, 2, 3)が 200m 離れた,同じ的を狙う.今までの練習成績から,射撃手 i が一発で的に 当てる確率はそれぞれ pi と考えられる(i = 1, 2, 3).さて,3人が一発ずつ撃ったところ,的には丁度一発だけ当 たっていた.この当たった一発が射撃手 i のものである(つまり,他の二人ははずした)確率について,以下の問 いに答えよ. 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 11 1. まず,計算を始める前に,直感的に答を推定してみよう. 2. では,講義での説明に基づき, 「正しく」計算してみよう. 3. 2 の結果は直感とあっているか?例えば,p1 = 0.2, p2 = 0.4, p3 = 0.6 として,射撃手 1 が当てた確率はいく らになっているか?(勿論,1, 2 の答が一緒になった人は立派なものである.僕にはこの結果は意外だったけ どね. ) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 12 第1回レポート問題:条件付き確率などについての,いくつかの問題です. 問 1: A さん夫妻には二人の子供がいることがわかっている.また,子供は双子ではない.簡単のため, • 男の子と女の子が生まれる確率は等しい • 子供が生まれる確率は曜日,時間帯にはよらず常に一定である と仮定して,以下の問に答えよ. (1) 二人の子供のうち,少なくとも一人は女の子だという.このとき,もう一人の子も女の子である確率はいく らか? (2) 二人の子供のうち,少なくとも一人は「日曜に生まれた女の子」だという.このとき,もう一人の子も女の子 である確率はいくらか? 問 2: 3人の射撃手(1, 2, 3)が 200m 離れた,同じ的を狙う.今までの練習成績から,射撃手 i が一発で的に当 てる確率はそれぞれ pi と考えられる(i = 1, 2, 3).さて,3人が一発ずつ撃ったところ,的には丁度一発だけ当 たっていた.この当たった一発が射撃手 i のものである(つまり,他の二人ははずした)確率について,以下の問 いに答えよ. 1. まず,計算を始める前に,直感的に答を推定してみよう. 2. では,講義での説明に基づき, 「正しく」計算してみよう. 3. 2 の結果は直感とあっているか?例えば,p1 = 0.2, p2 = 0.4, p3 = 0.6 として,射撃手 1 が当てた確率はいく らになっているか?(勿論,1, 2 の答が一緒になった人は立派なものである.僕にはこの結果は意外だった. ) 問 3: 2 つの,外見上見わけのつかない箱があり, • 一つの箱(便宜上,A と呼ぶ)には赤玉が 2 つ, • もう一つの箱(便宜上,B と呼ぶ)には,赤玉と黒玉が 1 個ずつ入っている. ただし,しつこいけども,外見では,どちらが A, B かはわからない. 今,一つの箱を選んだ.これが A, B のどちらであるか,以下のような実験から推測したい. (1) この箱から玉を一個取り出したら,それは赤であった.このとき,この箱が B である確率を求めよ. (2) (1) で取り出した玉を箱に戻した上で,もう一回,玉を取り出したら,またもや赤であった.このとき,この 箱が B である確率を求めよ. (3) (2) で取り出した玉を箱に戻した上で,もう一回,玉を取り出したら,今度もまた赤であった.このとき,こ の箱が B である確率を求めよ. 問 4: 以下では E, F, G は何かの事象である.以下の (1), (2), (3) の主張はそれぞれ正しいか?正しいなら証明 し,正しくないなら反例(正しくないような事象の例)を挙げよ. (1) E と F が独立,かつ,E と G も独立,とせよ.このとき,E は F ∪ G と独立である. (2) E と F が独立,かつ,E と G も独立,かつ,F ∩ G = ∅ とせよ.このとき,E は F ∪ G と独立である. (3) E と F が独立,かつ,F と G も独立,かつ,E は F ∩ G と独立,とせよ.このとき,G は E ∩ F と独立で ある. レポート提出について: 締め切りは 2012 年 12 月 17 日(月)の 14:00 , 提出場所は数理事務室のポスト(権さんと同じところ) とします.なお,問題の番外編として,今までの講義内容・講義形態についての感想,不満,文句,このように改 善すべしとの意見なども書いてくださると助かります. 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 13 マルコフ過程 3 これからいよいよ, 「大学での確率論」に入って行く.まずはマルコフ連鎖から. 3.1 問題設定 世の中にはいろいろな系(もの)がある.系の状態はいくつかあって,いろいろな約束事(法則)に従ってその 状態が変わっていくものが多い.状態の変化は(ミクロの)法則に従っているのだろうが,我々にはランダムに移 り変わっているように見えるものも多い.この節では,このように状態がランダムに移り変わっているようなもの を考える. 具体的には以下のような問題を考えたい. Q. 伊都キャンパスでお昼を,上と下の食堂のどちらかでとることを考える. (これ以外の選択肢はない としよう. )あまり同じ系統の食事が続くのは嫌なので,以下のようなルールでお昼を食べにいくことに する. • 昨日,上の食堂に行った場合,今日は – 確率 0.3 でまた上の食堂に行く – 確率 0.7 で下の食堂に行く. • 昨日,下の食堂に行った場合,今日は – 確率 0.6 で上の食堂に行く – 確率 0.4 でまた下の食堂に行く. このルールで一年とか十年とか続けた場合,上と下の食堂に行く比率はどのくらいになるだろうか? この章ではこのような問題を考える.次の小節では時間が離散的な場合,その次では時間が連続的に変わる場合を 考える7 . 3.2 3.2.1 マルコフ連鎖 マルコフ連鎖:問題の定式化と基本的性質 以上の問題はもっと一般に定式化できる.いま,系の状態が Ω 通りあるとし(上の例では Ω = 2),それぞれの 状態を j で表す(1 ≤ j ≤ Ω).状態の空間を S で書くと,S = {1, 2, 3, …, Ω} ということだ. 系は一秒に一回,状態変化を起こすものとしよう. (より一般に,任意の時刻に状態変化を起こすものも考えら 「時刻 れるが,それは 3.3 節で少しだけ考える. )この状態変化は行列 T によって引き起こされるとする.つまり, t + 0 に状態 j にあったものが時刻 (t + 1) + 0 に状態 i にいる確率」が,行列 T の ij 成分 Tij で与えられるとする 「時刻 t + 1 (t = 0, 1, 2, 3, …).この行列 T をこの確率過程の推移行列という8 .また,ここで考えているように, の状態が,時刻 t での状態から確率的に決まる(それ以前の状態には全く無関係)」ものをマルコフ連鎖(Markov chain)と呼ぶ.まあ,これは現在の状態だけを見て未来を決めるわけで, 「過去に全く学ばない」時間発展であると いえる9 . もちろん,行列 T には条件がつく.まず,Tij がジャンプの確率だから,すべての Tij は非負である.さらに,状 態 j から i に跳ぶ確率をすべての i について足し合わせれば,これは「状態 j(これは固定)からどれかの状態に移 7 なお,この節の講義ノートの作成には,学習院大学の田崎晴明さんの「数学:物理を学び楽しむために」を参考にした.これは田崎さんが 執筆中の数学の本の原稿であるが,非常によくまとまっていておすすめである.本の原稿を手に入れるには, 「学習院大学 田崎晴明」で検索し て出てくる田崎さんのページに行き,そこの「数学の教科書」のところを参照すると良い.もちろん,以下の内容に誤りがあった場合,それら はすべて,原だけの責任である. 8 T の添字の付け方は人によって流儀が異なる.ここでは時間発展が自然な行列の積で書けるように, 「j から i に行く確率」を Tij とした. 人によってはこれを Tji と書く場合もあるので要注意. 9 我々の現実社会ではマルコフ的な言動は非常に無責任ということになる訳ですが. . . 数学特論 A3 の後半 14 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) る確率10 である.これは全確率で 1 にならなければならない.以上から,行列 T は Ω ∑ Tij ≥ 0, (3.2.1) Tij = 1 i=1 をすべての i, j = 1, 2, 3, . . . , Ω について満たす必要があることがわかる. (うえの 2 条件を満たす行列を確率行列と いう.これから見るように,確率行列にはいろいろと面白い性質があり,それがマルコフ連鎖に反映される. ) このような状況のもとで,時間が十分に経った場合の系の状態について何がいえるか,というのが問題である.も ちろん,我々に言えるのは,確率的なことだけであるが,例えば,状態 i にいる確率はどのくらいであるか(この 確率は時間が経てば一定値に近づくのか,初期条件にはどのように依存するのか,など)を問題にしたい. もう少し記号を導入する.時刻 t(t = 0, 1, 2, 3, . . .)での状態を Xt と書く.問題設定によれば,Xt は 1 から Ω のどれかの値をとる確率変数である.また,その値の変化は [ ] P Xt+1 = i Xt = j = Tij (3.2.2) を満たしている. さて,我々がみたいのは,X0 = 1 や X0 = 2 の条件の下で,大きな N に対して XN = 4 などとなる確率である. つまり,我々は [ ] P XN = F X0 = I をもとめたいのである(I, F はそれぞれ初期状態と終状態を表し,ともに 1, 2, 3, . . . , Ω のどれかである).以下し ばらく,N は非常に大きい正の整数とする. 我々は時刻 0 から時刻 N の状態変化を直接つなぐ道具はもっていない.しかし,時刻 t と時刻 t + 1 の間をつな ぐことはでき,それは単に Tij が受け持っている.そこで,このような時間ステップ 1 の変化をつなぎ合わせて, 時刻 0 から時刻 N に行くことができそうである. つまり,時刻 0 と時刻 N の間に,時刻 1 における中間状態をすべて挿んでみると Ω Ω [ ] ∑ [ ] [ ] ∑ [ ] P XN = F X0 = I = P XN = F X1 = i P X1 = i X0 = I = P XN = F X1 = i TiI i=1 (3.2.3) i=1 [ ] がなりたつはずだ.今度は P XN = F X1 = i に対して,時刻 2 における中間状態を挿めば Ω [ ] ∑ [ ] P XN = F X1 = i = P XN = F X2 = j Tji (3.2.4) j=1 となるから,上の二つを組み合わせれば Ω ∑ Ω [ ] ∑ [ ] P XN = F X0 = I = P XN = F X2 = j Tji TiI (3.2.5) i=1 j=1 となる.これを繰り返すと Ω ∑ Ω ∑ Ω Ω ∑ [ ] ∑ P XN = F X0 = I = ··· TF m · · · Tkj Tji TiI = (T N )F I i=1 j=1 k=1 (3.2.6) m=1 が得られる.最後のところでは,たくさんの和が行列 P の N 乗(の F I 成分)を表していることに注意してコン パクトに書いた. ここまでくれば,問題は解けたも同然である.今の場合,時刻 0 での状態 I から時刻 N での状態 F に移る確率 は,上のように, 「行列 T の N 乗」の F I 成分で与えられる訳だ.後は,この「行列 T の N 乗」がどうなるかを (特に N が大きい場合に)計算すればよい. 10 状態変化がない,つまり j にとどまる確率も含めて 数学特論 A3 の後半 15 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) さて,上で見たように,我々が知りたいのは T N の F I 成分である.しかしより一般に,初期状態を表すあるベ クトル x に T N をかけた結果がわかればよい.つまり, yF := N ∑ (T N )F I xI (3.2.7) I=1 を考えると,xj = δj,I の場合が我々の欲しいものに相当する.要するに,T の N 乗をベクトル x にかけた結果が 欲しいのだ11 . さて,一般に Ω × Ω の正方行列はあわせて Ω 個の一般化された固有ベクトルをもつ.T のそれらを uij と書く —— i の一つ一つが Jordan block に対応しており(固有値は λi ),j の方は j = 1 の固有ベクトルから始まって, Jordan の一般化固有ベクトルを表す.これらを用いて x= ∑ cij uij (3.2.8) ij と表してみよう.これに T N をかけると,固有値の絶対値が 1 より小さいところはどんどん小さくなっていくので, 長時間後に残るのはだいたい,|λ| ≥ 1 の所だけである.もう少しいうと,絶対値が最大のところだけが残るのであ る.以下ではこれを精密に解析していく. 3.2.2 T の固有値と固有ベクトルについて ともかく,T の固有値と固有ベクトル(特に絶対値が最大のもの)を調べていこう. (そのあと,T N がどうなる かの話に進む. )一般の(成分が正または非負の)行列に対して Perron-Frobenius の定理というのが成り立つので, 以下の諸性質はその特殊例として証明できる.しかしここでは,確率行列に限って証明する(その方が少しは証明 がラクだから).以下では各成分が 1 であるベクトル 1 1 1 d := · · 1 (3.2.9) を多用する.また,内積は Cn の標準内積で,ただし,数学の流儀に従って左側について線型,右側について 1 2 線 型(定数倍を前に出したときに複素共軛がつく)とする.なお,行列 A の ij 成分は Aij または (A)ij と書く.ベク トルの場合も同様である. まず,T が確率行列であることから,以下は簡単にわかる: 補題 3.2.1 確率行列 T は固有値 1 の固有ベクトルを持つ. (証明)転置 t T が d を固有ベクトルに持つことを言う.実際,計算すると (t ∑ ∑ ) (t T )ij dj = Tji × 1 = 1 Td i = j (3.2.10) j (最後は確率行列であることを用いた).つまり,t T d = d が成り立つので,t T は固有値 1(固有ベクトルは d)を もつ. さて一般に,行列 A とその転置 t A の固有値は等しい.実際,固有方程式 det(λIΩ − A) = 0 の転置をとれば det(λIΩ − t A) = det t (λIΩ − A) = det(λIΩ − A) = 0 11 ちなみに,この (3.2.11) y はどんな問題を表しているかというと,初期条件が x で分布している場合の時刻 N での状態分布ということになる 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 16 となるから,A の固有値は t A の固有値であることがわかる.この逆をやれば,t A の固有値は A の固有値であるこ ともわかり,両者は等しい. 上では t T が固有値 1 を持つことを示したので,T も固有値 1 を持つことがわかる(ただしもちろん,T の固有 ベクトルは一般には上の d とは全く似ていないだろう —— T が対称行列の時は例外だが). ∑ 補題 3.2.2 確率行列 T の,1 以外の固有値に属する固有ベクトル x は,d と直交する.つまり, j xj = 0 で ある. (結果の解釈)内積がゼロなので,x の成分をすべて正にとることはできない(もしとれたら,x 6= 0 なので, ∑ (x, d) = j xj > 0 のはずだから).つまり,問題にしている λ 6= 1 の固有ベクトルの成分は(一般に)複素数の ∑ ものが複雑に混ざり合って j xj = 0 を満たしているはずなのだ.このことに関係した事実を,マルコフ過程の収 束に際して後で用いる. (証明)今,x が T の固有ベクトル(固有値は λ)だとする: T x = λx (3.2.12) この両辺と d の内積をとろう.t T d = d であったことを思い出すと,左辺は (T x, d) = (x, t T d) = (x, d) (3.2.13) (λx, d) = λ(x, d) (3.2.14) となる.右辺は単に である.このふたつが等しいのだから, (1 − λ) (x, d) = 0 つまり (x, d0 ) = λ(x, d) (3.2.15) が得られた.これから,λ 6= 1 なら (x, d) = 0,つまり,固有値が 1 以外の固有ベクトルと d は直交していること がわかる. 補題 3.2.3 確率行列 T ,およびその転置行列の固有値の絶対値は 1 以下である. (証明)固有値 x が固有ベクトル,対応する固有値が λ とする.|λ| ≤ 1 であることを言いたい.固有値 1 がある ことは既に見ているから,以下では λ 6= 1 の場合を考える. さて,上の補題から,λ 6= 1 なら (x, d) = 0 である.そこで,これから,xj をその絶対値 |xj | で置き換えたベク トルを考える.つまり,yj = |xj |(j = 1, 2, 3, . . . , Ω)として新しいベクトル y を定義する. さて,T x = λx を成分で書くと ∑ Tij xj = λxi (3.2.16) j となるが,両辺の絶対値をとってみる.左辺に対しては三角不等式(と Tij ≥ 0)から ∑ ∑ ∑ Tij xj ≤ Tij |xj | = Tij yj = (T y)i j がなりたつ. 右辺は単に j (3.2.17) j λxi = |λ| × |xi | = |λ| × yi (3.2.18) |λ| × yi ≤ (T y)i (3.2.19) となる.つまり,各成分ごとに が成り立っている.さてここで,両辺と d との内積をとろう.d の各成分は正なので,不等号の向きは保存されて |λ| × (y, d) ≤ (T y, d) = (y, t T d) = (y, d) (3.2.20) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 17 がなりたつ.ところが,y は各成分が非負の,ゼロでないベクトルだから,(y, d) > 0 である.よって,上の両辺 を (y, d) で割って |λ| ≤ 1 (3.2.21) を得る. 以上を定理の形にあらためてまとめておこう. 定理 3.2.4 確率行列 T に対しては,以下がなりたつ. (1) T は固有値 1 を持つ. (2) T の固有値の絶対値は 1 以下である. ∑ (3) T の,1 以外の固有値に属する固有ベクトル x は d と直交する.つまり, j xj = 0 である. さて,これ以上は T の連結性について,もう少し条件を付けないと何とも言えないようである. 実際,単位行列も立派な(でもジャンプが全く起こらないので面白くない)確率行列ではあるが,この固有値は 1 のみで,独立な固有ベクトルは Ω 個もある.しかもその固有ベクトルは何でも良いから,成分に正負が入り交じっ ていても良い. [ ] 0 1 また(Ω = 2 の例),確率行列 T0 := の固有値は ±1 であり,絶対値が 1 の固有値が二つある.このよう 1 0 に,もう少し仮定を加えないと,面白い結果は出てこない. もう少し何かをいうために最も簡単な仮定は, 「T のすべての成分が正」とするものであるが,これはちょっと要 求し過ぎだろう.もう少し条件を緩めて考えたい.以下では条件を 2 段階で付けて考える.まず, 「弱い既約性」と いうものを導入しよう. 定義 3.2.5 (既約性(弱い連結性)) 確率行列 T がある.各 i, j の組(1 ≤ i, j ≤ Ω,ただし i 6= j )に対して ある(大きな) n(この n は i, j に依存して良い)をとって, (T n )ij > 0 (3.2.22) とできるとき,T は既約(弱い連結性を満たす)という.これは要するに, 「どんな状態 i, j を持ってきても,i, j に応じて決めた n 回のジャンプを選んで,j から i に行ける」ことを意味している. 定義 3.2.6 (既約性(正しい定義)) 行列 T が既約であることの正しい定義は以下の通り:任意の i, j に対し て,うまく n をとって,i と j を n 個の T の非対角成分でつなげられること,つまり,i = k0 ← k1 ← k2 ← k3 · · · ← kn−1 ← kn = j という列がとれて,kl−1 6= kl かつ,Tkl−1 ,kl 6= 0,が満たされること (注意)正しい既約性の定義が満たされていても,一般には定義 3.2.5 の意味での既約性(弱い連結性)が満たさ れるとは限らない.ただ,今は確率行列を考えていて,各成分は非負だ.この場合には,上の二つの定義は同等で ある. 補題 3.2.7 確率行列 T が既約のとき,T の固有値 1 に属する固有ベクトルは,その各成分を正の実数にとれ る.つまり,固有値 1 に属する固有ベクトルは,eiθ u の形をしている — ここで θ ∈ R で,u は成分が正のベ クトル. (証明)x を,T の固有値 1 に属する固有ベクトルとする.証明は 2 段階でおこなう. x の各成分は非負にとれること. まず,少し弱い主張(各成分は非負にとれる)ことを証明する. x のある成分(k 成分とする)は正の実数になるようにとってあるとしよう(固有ベクトルにゼロでない数をか けても固有ベクトルなので,この自由度を用いる).もし,k 成分以外がすべてゼロなら,示したい結論を満たし 数学特論 A3 の後半 18 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) ているので O.K. 以下では k 成分以外に, 「非負ではない複素数の」成分が少なくとも一つある —— それを ` 成分 とする —— として,考えていく. 少し恣意的だが(この証明の中だけ)N を上の既約性に現れる n の最大値(n は i, j によるかもしれないので, i, j についての最大値をとる;i, j は有限なので,最大値は存在する)とする. (実は,N = Ω− 1 くらいにとれると 思うが,ここでは立ち入らない. )そして, > 0 に対して, T̃ := (IΩ + T )N (3.2.23) を考える(IΩ は単位行列).これを展開して考えると,各 ij が必要とする n ≤ N に対する T n がすべて現れるか ら,すべての i, j に対して T̃ij > 0 となっている. さて,T x = x を用いると, T̃ x = (1 + )N x (3.2.24) が成り立つはずだ.これを成分で書くと(扱いやすいように左右両辺を入れ替えた), (1 + )N xi = ∑ T̃ij xj . (3.2.25) j 両辺の絶対値をとって右辺に三角不等式を用いると ∑ ∑ (1 + )N |xi | = T̃ij xj < T̃ij |xj | j (3.2.26) j となる.ここで不等号にイコールが入っていないのは.今すべての T̃ij > 0 であり,かつ,xj の位相がそろってい ない(xk > 0 だけど,他に正でもゼロでもない x` がある)からである. この両辺を i について足し上げよう.T が確率行列なので,m = 2, 3, 4, . . . に対して ∑ (T m )ij = i ∑ Ti,k1 Tk1 ,k2 · · · Tkm−1 ,j = 1 (3.2.27) k1 ,k2 ,...,km−1 である.つまり,T m も確率行列であり, ∑( (IΩ + T )N ) i = ij N ∑( ) N ∑( ) ∑ ∑ N m m N m (T )ij = = (1 + )N m m m=0 i m=0 i (3.2.28) がなりたつ. そこで,(3.2.26) の両辺で i についての和をとると (1 + )N ∑ i となる. |xi | < (1 + )N ∑ |xj | j =⇒ ∑ i |xi | < ∑ |xj | (3.2.29) j ∑ |xi | = j |xj | 6= 0 であり,(3.2.29) は成り立ち得ない.つまり,背理法によっ て,その仮定「固有値 1 に属する固有ベクトルの成分が『すべて非負』にはとれない」が否定される.つまり,固 ところが,今は x 6= 0 ゆえ, ∑ i 有値 1 に属する固有ベクトルの成分は『すべて非負』にとれる,ことがわかった. (x の各成分は非負にとれること, の証明終わり). x の成分はすべて正にとれること ここまでくれば簡単だ.(3.2.25) の右辺を良く見る.右辺の xj は非負で,少なくとも一つは正.また,T̃ij はす べて正.従ってこの右辺の和は正なのだ.ということは,左辺の (1 + )N xi も正であって,つまり xi が正,とい える.ここの i は任意だから,欲しかったものが証明できた. 上の補題を用いて,固有値 1 の固有空間が 1 次元であることが示される: 補題 3.2.8 確率行列 T が既約とする.このとき,T の固有値 1 に対する固有空間は 1 次元である. 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 19 (証明)固有値 1 にたいする固有ベクトルが 2 つあったとして,それらを u, v とする.先の補題 3.2.7 により, u, u の成分はすべて正にとれる.さて,任意の実数 t に対して,u + tv も,T の固有値 1 に対する固有ベクトルで あるが,u と v が比例しない限り,うまく t を見つけて,u + tv の成分に「正の数と 0」が混在するようにできる. しかしこれは, 「各成分が正にとれる」という補題 3.2.7 の結論に反する.つまり,u と v は必ず比例し,固有空間 の次元は 1 次元である. 以上をまとめておこう. 定理 3.2.9 (既約な確率行列は. . .) 確率行列 T が既約とする.このとき, (1a) T は固有値 1 を持つ. (1b) T の,固有値 1 に属する固有ベクトルは,そのすべての成分を正の実数にとれる. (1c) T の,固有値 1 に属する固有空間は 1 次元である. (2) T の固有値の絶対値は 1 以下である. ∑ (3) T の,1 以外の固有値に属する固有ベクトル x は d と直交する.つまり, j xj = 0 である. かなり進歩したけども,マルコフ過程の収束をいうにはまだ足りない.特に,絶対値が 1 である固有値が 1 以外 にもあるかもしれないのが哀しい.これを打破するには,まだ条件が必要だ.そこで 2 番目の条件(強い連結性) を定義する. 定義 3.2.10 (強い連結性) 確率行列 T は,ある(大きな) n をとると —— この n は i, j に無関係にとれなけ ればならない —— (T n )ij > 0 (1 ≤ i, j ≤ Ω) (3.2.30) とできるとき,強い連結性を満たすという.これは要するに, 「どんな状態 i, j を持ってきても,うまく n 回の ジャンプを選んで,j から i に行ける」ことを意味している. (注意)上の定義では, 「ちょうど n 回で」すべてがつながることが重要.ここが弱い連結性(既約性)との違いで ある —— 弱い連結性が満たされるためには,2 ← 1 が起こるには n = 101,3 ← 1 が起こるには n = 103,など と i, j によって n が異なってもよい.強い連結性のためには,これでは足りない訳だ. この条件を付けると,大体,望み通りの結果がでてくる.まずは定理を書こう. 定理 3.2.11 確率行列 T が強い連結性を持っているとする.つまり,ある n があって,(T n )ij がすべての i, j に対して正.このとき, (1a) T は固有値 1 を持つ. (1b) T の,固有値 1 に属する固有ベクトルは,そのすべての成分を正の実数にとれる. (1c) T の,固有値 1 に属する固有空間は 1 次元である. (2) T の固有値の絶対値は 1 以下である. ∑ (3) T の,1 以外の固有値に属する固有ベクトル x は d と直交する.つまり, j xj = 0 である. (4) T の,絶対値が 1 の固有値は 1 のみである(1 以外の固有値の絶対値は 1 より真に小さい). (証明)新しいのは (4) だけなので,これを証明する.T の固有ベクトルを u,固有値を λ とする.証明はふた つにわける.まず,u の位相がそろっていない(つまり,すべての成分を非負の実数とすることができない)場合 を考える.次に,位相がそろった場合を考える. まず,位相がそろっていない場合.T n を u にかけると,T n u = λn u となる.この両辺を成分で書き下し絶対値 をとると,(3.2.17) 付近でやったのと同じようにして ∑ |λn | |ui | = (T n )ij uj (3.2.31) j を得る.この右辺に三角不等式を使いたいのだが,今はすべての (T n )ij が正なので,uj のすべての位相がそろって 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 20 いない限り,三角不等式を使えば必ず損をする.つまり, |λn | |ui | < ∑ (T n )ij |uj | (3.2.32) j がすべての i について成り立ってしまう. この両辺を i について和をとると |λn | ∑ |ui | < i を得る.そこでこの両辺を ∑ i |ui | = ∑ j ∑∑ ∑ (T n )ij |uj | = |uj | i j (3.2.33) j |uj | > 0 でわって, |λn | < 1 (3.2.34) を得る.つまり,uj のすべての位相がそろっていない限りは |λ| < 1 が言えた. 次に uj の位相がそろっている場合(すべての uj を非負にできる場合)を考える.この場合,uj はすべて非負 になるように調整すると,T u = λu の左辺は非負,右辺も u は非負なので,λ も非負だ.この事実を利用して, T u = λu を成分で書き下して和をとる. 今回はすべてが非負なので不等号の入る余地はなく, ∑ ∑ ui = ui λ i となり,両辺を ∑ (3.2.35) i ui でわると12 i λ=1 (3.2.36) を得る.つまり,この第二のケースは固有値 1 の場合しかないのだ. 3.2.3 T N の N → ∞ での漸近形 以上の結果から,強い連結性がある場合には,T N についてもかなり強い事がいえる.まず,以下の補題を証明 しておく. 補題 3.2.12 T が強い連結性をもつとする.(r, d) = 0 なる r ∈ CΩ に対しては, lim T N r = 0 (3.2.37) N →∞ である. (証明)r の各成分を実部と虚部にわけると r = r 0 + ir 00(r 0 , r 00 は成分が実数であるベクトル)といつでも書け る.なので,r ∈ RΩ の場合に証明すれば十分である.以下,これを証明する. ∑ 考えている r は (d, r) = 0 を満たす.つまり, j rj = 0 である.そこで rj の添字を,uj が非負のところと負の ところに分解する(つまり,添字の集合 I+ と I− を用意して,j ∈ I+ なら uj は非負,j ∈ I− なら uj は負,とす る).条件から ∑ rj + j∈I+ ∑ ∑ rj = 0, j∈I− rj = j∈I+ が成り立っている.r の 1-ノルム krk1 を krk1 := ∑ ∑ |rj | (3.2.38) j∈I− |rj | (3.2.39) j と定義すると,上から ∑ j∈I+ rj = ∑ j∈I− |rj | = krk/2 ∑ 12 固有ベクトルは零ベクトルではなく,かつ,今は成分が非負なので, i ui > 0 である (3.2.40) 数学特論 A3 の後半 21 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) であることに注意(後で使う). T は強い連結性を満たすので,ある n があって,(T n )ij > 0 がすべての i, j で成立する.まずは, lim T n` r = 0 (3.2.41) `→∞ を示す.もしこれができれば,任意の N を n で割った商と余りに分けて書いて(N = n` + k )やると,N → ∞ の 場合には ` → ∞ だから lim T N r = lim T k T n` r = 0 N →∞ (3.2.42) `→∞ となって証明が終わる. さて,(3.2.41) を示すために,T n r の i 成分を以下のように考える: Ω ∑ ∑ ∑ ∑ ∑ n n n (T r)i = (T )ij rj = (T )ij rj − (T )ij |rj | = (T n )ij |rj | − 2 (T n )ij |rj | n j j∈I+ j=1 j∈I− (3.2.43) j∈I− さて,(T n )ij はすべて正なので,その最小値があるはずだ.それを δ > 0 とすると上の右辺は Ω Ω ∑ ∑ ∑ n ≤ (T )ij |rj | − 2 δ|rj | = (T n )ij |rj | − δkrk j=1 j∈I− (3.2.44) j=1 と抑えられる(最後のところで (3.2.40) を用いた).I+ と I− を取り替えて同様に議論すると Ω ∑ (T r)i ≥ − (T n )ij |rj | + δkrk n (3.2.45) j=1 が示される.この二つを合わせて |(T n r)i | ≤ Ω ∑ (T n )ij |rj | − δkrk (3.2.46) j=1 が得られる.これは 1-ノルムの言葉では(途中で T n も確率行列であることを用いる) kT n rk1 = ∑ |(T n r)i | ≤ i Ω } ∑ ∑{∑ (T n )ij |rj | − δkrk = |rj | − Ωδkrk1 = (1 − Ωδ)krk1 i j=1 (3.2.47) j を意味する. 以下,これをくり返したい.任意の正の整数 m に対して s := T m r はやはり d との内積がゼロである.実際, t T d = d だったので (T m r, d) = (r, t (T m )d) = (r, (t T )m d) = (r, d) = 0 (3.2.48) 従って特に,s := T n r に対して上の議論をくり返して kT 2n rk1 = kT n sk1 ≤ (1 − Ωδ)ksk1 = (1 − Ωδ)kT n rk1 ≤ (1 − Ωδ)2 krk1 (3.2.49) が得られる.これを更にくり返すと,任意の正の整数 ` に対して kT n` rk1 ≤ (1 − Ωδ)` krk1 (3.2.50) がいえる.Ω, δ ともに正なので,` → ∞ で右辺はゼロに行く.ベクトルのノルムがゼロに行くので,T n` r はゼロ に行く. これを用いて,T N の極限形がわかる. 定理 3.2.13 T が強い連結性を持つとき, lim T N = u1 t d N →∞ つまり成分では ( ) lim T N ij = (u1 )i N →∞ (3.2.51) である.ここで,u1 とは,T の固有値 1 に対する固有空間の基底で,その成分はすべて正,またその規格化は ku1 k1 = 1 としたものである. 数学特論 A3 の後半 22 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) (注意)うえの u1 t d というのは,u1 は縦ベクトル,t d は横ベクトルと思って,行列のかけ算をしなさい,とい うこと.成分で書けば,その後ろに書いてあるように,その ij 成分は (u1 )i (d)j = (u1 )i である. (証明)行列の等式(A = B )を証明する一つの方法は,両辺を任意のベクトルにかけた結果が等しい事をしめ すことだ.なぜなら,任意の x に対して (A − B)x ≡ 0 なら A − B = 0 だから. そこで,以下では任意の x ∈ CΩ に対して T N x を計算する.多少天下りではあるが, c1 := と定める(分母の内積は ∑ j (u)j (x, d) = (x, d), (u1 , d) r := x − c1 u1 (3.2.52) = 1 である).c1 の定義から, (r, d) = 0 (3.2.53) が満たされることがわかる(というか,この条件を満たすように c1 を決めた).つまり,x を x = c1 u1 + r, c1 := (x, d) (3.2.54) と分解したことになる. この両辺に T N をかけると T N x = c1 T N u1 + T N r = c1 u1 + T N r (3.2.55) となるが,右辺第 2 項は上の補題 3.2.12 によってゼロに行く.よって, lim T N x = (x, d) u1 (3.2.56) N →∞ が任意の x ∈ CΩ に対して証明できた. さて A = u1 t d を定義すると(つまり,Aij := (u1 )i ),任意の x ∈ CΩ に対して ∑ ∑ (Ax)i = (u1 )i xj = xj (u1 )i = (x, d) (u1 )i j (3.2.57) j つまり,ベクトルとして Ax = (x, d) u1 (3.2.58) が成り立つ.これは (3.2.56) における,limN →∞ T N の x への作用と同じだから,両者は一致する. 3.2.4 マルコフ連鎖の定常分布 以上を用いて,マルコフ連鎖の長時間挙動を調べよう.以前に得た式 Ω ∑ Ω ∑ Ω Ω ∑ [ ] ∑ P XN = F X0 = I = ··· TF m · · · Tkj Tji TiI = (T N )F I i=1 j=1 k=1 (3.2.59) m=1 を思い出すと,T N が計算できればよい.最も強力な結果を出すため,遷移行列 T は強い連結性を持つと仮定する. このときの T N は既に上の定理 3.2.13 で与えた.よって,任意の初期分布 p(0) に対して lim T N p(0) = u1 t d p(0) = u1 × (d, p(0) ) (3.2.60) N →∞ となるけども,p(0) が確率分布なので,(d, p(0) ) = 1 である.結果として以下が得られた. 定理 3.2.14 T が強い連結性をもつとき,任意の初期分布 p(0) に対して lim T N p(0) = u1 (3.2.61) N →∞ がなりたつ.ここで u1 は T の固有値 1 に対する固有ベクトルで,その成分は正の実数,規格化は としたものである. ∑ j uj = 1 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 23 このように,強い連結性の下では,マルコフ連鎖の長時間後の様子は(初期条件には依存せず)一意に定まって しまうのである —— つまり,初期条件が何であっても,時間が十分に経てば.初期条件のことはすっかり忘れて しまう,ということだ.マルコフ連鎖が, 「明日の事を考える時に,今日のことは考えに入れるが,昨日以前のこと は忘れてしまう」ものであったことを考えると,これはまあ,自然であろう. これは非常に一般的,かつ強力な結果である.ただし,状態の数が有限であったことがかなり効いているのは心 にとどめておいた方が良いだろう. 3.3 マルコフ過程(時間連続) 前節では t = 0, 1, 2, 3, . . . だけの,離散的な時間を考えた.そして t = 4 から t = 5 への遷移が行列 T で確率的に 決まってるとした. しかし,世の中の自然な時間は連続であり,t が整数以外のときにもジャンプが起こるような過程はたくさんあり そうだ.この問題を考えてみる.ただし前節と同じく,状態は Ω 個しかないものとする. 3.3.1 問題設定 時間が連続的に流れるモデルを考えたいのだが,少しだけ注意が必要だ.一つの自然なアプローチは,時間が離散的 な場合の極限として連続時間を扱うことである.つまり,δ を非常に小さな正の数として,t = nδ (n = 0, 1, 2, 3, . . .) のところだけをまず考える.そして,時刻 t = nδ において状態 j にいたときに,時刻 t = (n + 1)δ では状態 i にい る確率(遷移確率)を,Tij と書くことにする. (ここまでは t の間隔が 1 秒から δ 秒に変わっただけで,前節と同じ である. )時刻 t での状態分布を p(t) と書けば,p(t+1) = T p(t) ということだ. このようなマルコフ連鎖にて δ → 0 の極限を考えてやれば,連続時間のマルコフ連鎖(数学ではマルコフ過程と 呼ばれる)が得られるはずだ.しかし本当にそうだろうか? 例えば,T21 = 0.01 だったとしよう.これは一回のジャンプで 1 から 2 へ行く確率が 0.01 ということ.しかし, 1 秒の間にはジャンプするチャンスが 1/δ 回くらい残ってる.いくら確率 0.01 が小さいとは言っても,δ ↓ 0 の極限 ではこの回数は無限大だ.つまり,1 秒後には(δ ↓ 0 の極限では)確実にこのジャンプは起こってしまっている. 別の言い方をすれば,t = 0 から t = 1 への状態の変化は p(1) = T N p(0) で与えられるが(N = 1/δ ),δ ↓ 0 で は N → ∞ であり,1 秒後には T ∞ のみが効くことになってしまう.これでは,状態はこのマルコフ連鎖の定常状 態に収束してしまっており,面白いことは全く起こらない. 何が悪かったかは明白である.1 秒に無限回も跳ぶのに,跳ぶ確率を正に設定していたら,そりゃ呼び過ぎだ.こ れを直すには,1 秒に平均 1 回程度(1 回でなくても良いが,有限回)跳ぶように,遷移行列を定義し直せば良い. 大雑把に言って,1 秒間に跳ぶ回数は Tij /δ なんだから,これが O(1) になるようにすれば良い,つまり,Tij が δ に比例するようにすれば良いのだ.ただし,i = j の場合はほとんど 1 にしておくべきである. (一瞬の間 δ では,ま ) ず跳べない.つまり,j = i のところはほぼ確率 1 にならないと困る. というわけで,今考えてる問題では, Tij = δij + δRij (3.3.1) のような形になってるべきだと思われる(ここで Rij は無限小時間でのジャンプの割合を表す行列). こう仮定すれば, p(t+δ) = T p(t) = (IΩ + δR)p(t) (3.3.2) ということなので,δ で割って δ ↓ 0 とすれば, d (t) p = R p(t) dt 成分では ∑ d pi (t) = Rij pj (t) dt j という式が得られる.これがマルコフ過程の基礎方程式である. (3.3.3) 数学特論 A3 の後半 24 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) T に制限がついたのと同じく,R にも制限がつく.つまり, ∑ j pj (t) は全確率で 1 だから,上の微分方程式を i について足したものはゼロでないと困る: 0= ∑ d ∑ pi (t) = Rij pj (t) dt i ij (3.3.4) これがすべての p(t) について成り立つべきであるから, ∑ Rij = 0 (3.3.5) i が必要である. 3.3.2 時間発展を解く 上の微分方程式は係数が定数なので,簡単に解ける.特に,行列の指数関数 eA := ∞ ∑ 1 n A n! n=0 (3.3.6) を使うのがコンパクトに書けてよい.結果は p(t) = etR p(0) (3.3.7) となる.後はこの指数関数の性質を調べれば良い. Perron-Frobenius の定理からすべてを導出し直しても良いが,以下のように考えると,離散的な場合に(ほとん ど)帰着できる. 今,上の時間発展の系を t = 0, 1, 2, . . . でだけ,観察しよう.この整数時間の間の時間発展は T := eR が担ってい る.つまり,t = 0, 1, 2, 3, … をみた系は,この T = eR を遷移行列にもつマルコフ連鎖になっているわけだ.T は もちろん,確率行列であるから,前節の結果がいろいろと使える. 特に,R が定義 3.2.6 の正しい意味で既約であれば,T = eR は強い連結性をもつ. (なぜなら,eA = ∑∞ An /n! にはすべての An が現れているので,どんな i, j をとってきても,An のどれかで i, j がつながる).従って,T が n=0 強く連結されている場合の結果が今も使える. 定理 3.3.1 R が既約のとき,今考えているマルコフ過程は一意的な定常状態に近づく.この定常状態は,R の固有 値ゼロの唯一の固有ベクトルであり,その成分はすべて正の実数にとれる. まあ,状態数が有限の場合なら,連続時間の方が離散的な時間よりも簡単である. (似たようなことは微分方程式 と差分方程式に関しても割合,よく見られる.例えば logistic map はカオスを出すことで有名だが,その連続バー ジョンでは何も面白いことは起きない. ) 数学特論 A3 の後半 25 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 第 2 回レポート問題: マルコフ連鎖についての問題です.あんまり面白い問題になりませんでした. . . レポート提出について: 締め切りは 2012 年 1 月 8 日(火)の 16:50 , 提出場所は数理事務室内のレポート提出ポスト とします. 問1. T を Ω × Ω の確率行列とする.つまり, Tij ≥ 0 かつ ∑ Tij ≡ 1 i を満たしている行列である.また,u を,その成分が非負(負でない)で,かつ, Ω ∑ uj = 1 を満たすベクトルと j=1 する.以下を示せ. (1) 条件「T u = u」と「(I − T + U )u = d」は同値である.ただしここで,I はもちろん単位行列,U は各成分 がすべて 1 である行列(ともに Ω × Ω),また,d は各成分が 1 であるベクトルである. (2) T が弱い連結性を満たすなら,u = (I − T + U )−1 d である. お詫び: 上の (2),(I − Y + U ) となってましたが,正しくは (I − T + U ) です(上では訂正済み). また,(2) は T u = u の場合に,u = (I − T + U )−1 d を示せ,ということです. 問2.マルコフ連鎖については,遷移行列(推移行列)T によって,いろいろな振る舞いが見られる.以下,遷移 行列とはマルコフ連鎖の遷移行列のことで, Tij ≥ 0 かつ ∑ Tij ≡ 1 i を満たしているものとする. (別の言い方をすると,これを満たしていれば何でも遷移行列と認めてしまって,以下 の例として使ってよい. ) (1) 長時間後の振る舞いが以下の (a) や (b) のようになるような遷移行列 T の例を,それぞれ与えよ. (状態の数= 行列の次元 Ω は自由に —— つまり,計算しやすいように —— 与えて良い. ) (a) どのような初期条件から出発しても,最終的にはたった一つの定常分布に行く. (b) 定常分布はない.どんな初期条件から出発しても,いくつかの状態を渡り歩く現象が見られる. (2) 上で挙げた二つの場合,行列の固有値や固有ベクトルの様子はどうなっているか,可能な限り述べよ. (3) マルコフ連鎖の長時間後の振る舞いとして,上の (a), (b) 以外のものはあるだろうか?あると思う場合は「ど のような振る舞いか」と「それを与える T の例」を,ないと思う場合はその理由を,答えよ.もちろん,例 を挙げる場合にはできるだけアタリマエではないような例を希望する. 以上,あまり難しく考えず,自由にいろいろとやってもらえるとうれしい. レポートのお約束:友達と相談しても,本を調べても,何をやっても良いから,自分で理解した範囲を書くこ と.その際,参考文献や議論した友達の名前も明記すること. (友達と議論したり本を見たからと言って,悪い 点をつけることは絶対にしない.一番大事なのは自分でわかったところを表現することだから,それまでの過 程で何をやっても問題ない. ) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 26 ランダムウォーク 4 この節では物理などでも重要な,ランダムウォークについて考えていく. 4.1 背景説明 ランダムウォークは色々なところに顔を出す. • 講義の一番初めにも言った, 「酔っぱらいのおっさん」の問題.酔っぱらってフラフラ歩いていたら,そのう ちに自分の家にたどり着けるか? (例えば)タバコの煙が空気の分子にぶつかられてフラフラ動く運動. • ブラウン運動. • 気体中の拡散の問題.部屋の隅に置いた香水の香りが部屋の中程まで伝わるのにはどのくらいの時間がかかる? • 株価の動き. これらの運動に共通するのは,粒子(や人や株の値)が,周りから色々な力を受け,あっちこっちへ移動すること である.その結果として,これらの運動には共通の性質がみられるが,これはまた,空間の性質に敏感に依存する. この節ではこのような性質を調べることを目的とする. 4.2 1次元のランダムウォーク まず,一次元で粒子が動く場合を考えよう.株価の変動などが例になる. 粒子の動く場所としては,一次元の x-軸の上で,粒子は座標が整数の点のみを移動するものとする.粒子は原 点(x = 0)から出発し,確率的に左右に移動していく.その移動のルールは,今までの履歴には全く関係なく (0 ≤ p ≤ 1) 確率 p で左へ一歩,確率 (1 − p) で右へ一歩 動くものとする.問題は n 歩経ったときにどこにいるか,とか, n 歩までにどのような点を通ってきているか,な どである. さて,以上の問題はもう少し抽象的に以下のようにも定式化できる.まず,確率変数 Xi (i = 1, 2, ...)を −1 (確率 p で) Xi = (4.2.1) 1 (確率 1 − p で) となるように定義し,{Xi } は互いに独立であるとする.そして Sn = n ∑ Xi (4.2.2) i=1 と定義すると,この Sn が n 歩たったときにどこにいるかを表す数になる. まず,n 歩経ったときに x にいる確率を Pn (x) と書いて,この Pn (x) を求めることにしよう.これは簡単に計 算できる(今まで何回かやった2項分布).実際,n 歩で x にいると言うことは,これまでに 左へ (n − x)/2 歩,右へ (n + x)/2 歩 動いていると言うことだ.右へ動く確率が (1 − p),左へ動く確率が p だから,このように動く確率は ( ) n Pn (x) = n+x p(n−x)/2 (1 − p)(n+x)/2 (4.2.3) 2 と計算できる.上で Pn (x) がゼロにならない x の値は, (1)x − n が偶数で,かつ(2) |x| ≤ n であることは容 易にわかる. 数学特論 A3 の後半 27 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) この Pn (x) は n が大きくなると正規分布に近づく(中心極限定理).実は今考えている Sn は中心極限定理の時 に出てきたものと同じだから,それを思い出すと,確率変数 ] 1 [ Zn := √ Sn − n(1 − 2p) 4pqn が [ ] lim P a ≤ Zn ≤ b = n→∞ ∫ b a (4.2.4) e−z /2 √ dz 2π 2 (4.2.5) をみたすことになる.ここで q := 1 − p であり,また (1 − 2p) と 4pq はそれぞれ Xi の平均と分散である. これからすぐにわかること: • n 歩後の位置は中心が n(1 − 2p),拡がりが大体 √ 4pqn になっている. • p 6= 12 では,中心は右か左にどんどん移動していき,その位置は n に比例している.つまり,中心の移動速 度は一定(1 − 2p)である. √ • 一方,位置の拡がりは大体 n のオーダーである.だから,p 6= 12 ではこの拡がりは位置が移動した距離 (オーダー n)に比べて非常に小さい.つまり,n 1 では粒子は n(1 − 2p) の周りに集中しているように見 える. • p= 1 2 では話は別で,このときだけ,中心が動かない.位置の拡がりは √ n で,今までと本質的な差はない が,何分,中心が動かないので,この「位置の拡がり」が主役を演じる. こんな訳で,p = 4.3 4.3.1 1 2 が一番面白いから,以下,p = 1 2 に話を限る 高次元のランダムウォーク 2 次元のランダムウォークの定義 2次元のランダムウォークを考えよう.今度は2次元平面で,座標の値が整数値である点を考える.これを Z2 と 書くことにする: Z2 = {(x, y) | x, y ∈ Z} (4.3.1) +x 方向を東,−x 方向を西,+y 方向を北,−y 方向を南と呼ぶ. さて,この Z2 上で粒子が動くことを考える.その規則は • 粒子はやはり原点 (0, 0) から出発する. • 粒子は整数時刻毎に今いるところから隣の点へうごく. • 隣への跳び方は,東西南北のいずれにでも,それぞれ確率 1 4 で跳ぶ. • 跳び方は粒子の過去の履歴には全くよらない(今までいたところを避けようとしたり,逆に今までいたところ に行こうとしたり,はない). と言うものである.1次元ランダムウォークの p = 1/2 の場合には左右へ同確率で跳んだが,この2次元では,東 西南北へ同確率(1/4)で跳ぶのである.この意味で1次元ランダムウォークの自然な拡張になっている. ~i で 1次元の時と同じく,少し抽象的な定式化をしておこう.2次元ベクトルである確率変数(確率ベクトル)X 以下のように値をとるものを導入する. (1, 0) (確率 1/4 で) (−1, 0) (確率 1/4 で) ~i = X (0, 1) (確率 1/4 で) (0, −1) (確率 1/4 で) (4.3.2) 数学特論 A3 の後半 28 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) すると,今度は ~n := S n ∑ ~i X (4.3.3) i=1 が時刻 n での粒子の位置を表す. 4.3.2 大体の振る舞い 少し今までやった「中心極限定理」の範囲を超えるが,ともかく以下のように考えてみる.時刻 n でどのくらい ~n の期待値と「分散」を考える.期待値は 原点から離れているか,見てみたい.そのためにまず,S D ∑ n n D n E ∑ E ∑ ~n = ~i = ~i = ~0 = ~0 S X X i=1 i=1 (4.3.4) i=1 上のはベクトルの各成分毎に期待値をとっていることに注意(講義で説明). ~n |2 の期待値を考えるのが自然である.これは期待 「分散」に相当するものとしては,原点からの距離の二乗 |S 値の線形性から ∑ n n ∑ n n D n n ∑ D E D E (∑ ) (∑ ) ∑ E 2 ~ ~ ~ ~ ~ ~ ~ ~i · X ~j | Sn | = Sn · Sn = Xi · Xj = Xi · Xj = X i=1 となる.ところが, j=1 i=1 j=1 D E 1 (i = j) ~i · X ~j = X 0 (i = 6 j) となることがわかる(講義で説明).従って, D (4.3.5) i=1 j=1 (4.3.6) E ~ n |2 = n |S (4.3.7) となる. 以上の解釈:粒子の分布の中心は原点 (0, 0) である.その周りの粒子の拡がりは大体 √D ~ n |2 |S E = √ n ぐらいで ある. 以上を見る限り,1次元のランダムウォーク(の p = 1/2 の場合)と定性的に同じ振る舞いをしているように見 える.典型的な例を図 1,2 に示した. 4.3.3 3次元のランダムウォーク 今までの拡張として3次元のランダムウォークを考える.今度は確率 1 6 で「東西南北上下」の6方向にランダム に動く.これは煙の粒子のブラウン運動などのモデル化である. ~n の期待値はゼロ,また原点からの距離は 大まかな振る舞いは1次元,2次元と同じである.時刻 n での位置 S √ 大体 n,つまり (4.3.4),(4.3.7) が成り立つ.この観点からは次元による差異は認められない. この事情は 4 次元以上でも同様である.次元による差異が出てくるのは,以下に述べる「再帰性」についてである. 4.4 ランダムウォークの再帰性 さて,ランダムウォークの「再帰性」について考えよう.ランダムウォークはフラフラ動いている訳なので,色々 なところへ行く.あるサンプルをとれば出発点に何回も戻ってくるだろうし,別のサンプルでは戻ってこないだろ う.それで 無限の(十分大きい)時間待ってやったら,どんなサンプルでも出発点に戻ってくるか 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 29 図 1: 2次元ランダムウォークの例 1:左上から 10, 102 , 103 , 104 steps. 横軸は x, 縦軸は y で,図示している範囲 √ は 2 n. 図 2: 2次元ランダムウォークの例 2:左上から 105 , 106 , 107 , 5 × 107 steps. 横軸は x, 縦軸は y で,図示している √ 範囲は 2 n. 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 30 という問題を考えたい.上の答が YES, つまり無限時間待ったら原点に絶対戻ってくるとき,ランダムウォークは 再帰的(recurrent)と言う.一方,無限時間待っても戻ってこない確率がゼロでない時,ランダムウォークは推移 的(transient)と言う. (注意)1 次元の場合に Pn (x) を求めたから,Pn (0) もわかっている.けども,この Pn (0) だけでは上の問には 答えられない.と言うのは,Pn (0) は 「n 歩後にたまたま原点に戻っている確率」であって,これまでに何回でも 原点に戻っているものも数えてしまっているから. 4.4.1 再帰性についての一般論 (この節の議論は何次元のランダムウォークでも,また状態空間がもっと複雑なものでも,形式的には同様に成 立する. ) 再帰性を議論するために,Pn (x) とその仲間を以下のように定義する: • Pn (x) とは「原点から出発したランダムウォークが時刻 n に x にいる確率」. • Fn (x) とは「原点から出発したランダムウォークが時刻 n で初めて x に到達する確率」. ただし,x = 0 の場合は Fn (0) を「ランダムウォークが時刻 n で初めて原点に戻ってくる確率」とする (n ≥ 2).また,F0 (0) = 0 と決めておく. ∞ ∑ • G(x) := Pn (x) n=0 • r(x) := ∞ ∑ Fn (x).言葉では「ランダムウォークがいつかは x に到達する確率」. n=0 我々の考えたい確率は r(x) であり,これは Fn (x) の和で書けている.そこで Fn (x) を求めたいのだが,これは 良くわからない.一方,Pn (x) については 1 次元では既に求めてある — (4.2.3) 参照.そこで Fn と Pn の関係を つけよう. このためには以下のように考える.Pn (x) にはいろんなランダムウォークが寄与している.あるものは n 歩目で 初めて x に来た.あるものは x に来るのは n 歩目で 2回目 だ.あるものは 3回目 だ. . .式では Pn (x) = ∞ ∑ P [時刻 n には x にいるが,これは x へは ` 回目の訪問である] (4.4.1) `=1 と書いて良かろう. この内,` = 1 のは「x に来るのはこの n 歩目が初めてだ」と言うことだから,これは定義から Fn (x) そのもの である. そこで,これから x に2回以上来るもの(` ≥ 2)をまとめて考える.この場合,n 歩目の前に少なくとも一回は x に来ている訳なので,そのときの時刻を k と書くと, ∞ ∑ P [時刻 n には x にいるが,これは x へは ` 回目の訪問である] `=2 = P [時刻 n には x にいるが,以前にも x に来たことがある] ∑ = P [時刻 n には x にいるが,時刻 k に初めて x に来た] (4.4.2) 0<k<n と書ける.ところが, 「時刻 n には x にいるが,時刻 k に初めて x に来た」というランダムウォークを,時刻 k で 2つに分けて書くと,時刻 k までの部分は Fk (x) への寄与であるし,k 以降の部分は Pn−k (0) への寄与と考えら れる13 .以上から上の確率は = ∑ Fk (x) Pn−k (0) (4.4.3) 0<k<n 13 ここで k 以降の部分は x から出発して n − k 歩で x へ戻る確率なので,一見 P n−k (0) とは異なる — Pn−k (0) は 0 から出発して 0 へ 戻る.しかし今のランダムウォークは,時間と空間に関する平行移動不変性があって,出発点と終点が同じならどこから出発しても同じ.よっ て問題の確率は Pn−k (0) に等しい 数学特論 A3 の後半 31 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) となる. 以上から (4.4.1) は ∑ Pn (x) = Fn (x) + ∑ Fk (x) Pn−k (0) = k:0<k<n Fk (x) Pn−k (0) (4.4.4) k:0<k≤n と書くことができる(第2の等号は,P0 (0) = 1 である事から出る).この両辺を n ≥ 1 について和をとると ∞ ∑ n=1 Pn (x) = ∞ ∑ ∑ Fk (x) Pn−k (0) = n=1 k:0<k≤n ∞ ∑ ∑ Fk (x) Pn−k (0) = ∞ ∑ ∑ r(x) = n=1 ∞ ∑ Fk (x) = k:k>0 ∞ ) ) (∑ P` (0) Fk (x) k:k>0 k:k>0 n=k 従って (∑ ∞ ∑ Pn (x) = n=0 P` (0) `=0 (4.4.5) `=0 Pn (x) − δ0,x ∞ ∑ (4.4.6) P` (0) `=0 と書ける.最後のところは分子の和を n = 0 からにする代わりに n = 0 の寄与 1 をひいておいた. (ここで δ0,x と は,x = 0 の時のみ 1,他は 0 の値をとる Kronecker のデルタ. ) 4.4.2 1 次元ランダムウォークの再帰性 以上の一般論を,1 次元のランダムウォークに適用しよう.r(x) = 1 か否かを見るには,(4.4.6) の分母子を計算 すればよい.まず Pn (0) は n が偶数の時のみゼロではなくて,Stirling の公式を用いると, ( )( ) 2m 1 2m (2m)! 1 1 P2m (0) = = ≈√ m m 2 m! m! 4 πm (4.4.7) である事がわかり, 2N ∑ Pn (0) ≈ 1 + n=0 N ∑ 2 √ 1 √ ≈1+ √ N πm π m=1 (4.4.8) となって,N → ∞ では発散することがわかる.これと (4.4.6) から直ちに, r(0) = 1 − 1 ∞ ∑ =1− P` (0) 1 =1 ∞ (4.4.9) `=0 が得られる.すなわち,1次元ランダムウォークは再帰的である. 4.4.3 特別付録: x 6= 0 についての r(x) 以下の議論は,相当に細かいし,少し技術的なので,あくまで「おまけ」である.興味のある人は読んでくださ れ. (この節の内容は講義では触れない予定). 上では r(0) (いつかは原点に戻ってくる確率)を計算したが,r(x) (ゼロでない点 x に戻ってくる確率)はま だだった.そこで,x 6= 0 に対して r(x) も求めておこう. (4.4.6) を用いたいが,分母子共に発散するので,注意が必要である.そこで (4.4.4) から (4.4.5) 辺りまで戻る. N を大きな数として,1 ≤ n ≤ N なる n について (4.4.4) の両辺の和をとってみると, N ∑ n=1 Pn (x) = N ∑ k=1 Fk (x) N −k ∑ `=0 P` (0) (4.4.10) 数学特論 A3 の後半 32 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) となる.このままでは右辺の和が別れないので,強引に以下のように変形する.まず,右辺の k の和を 1 ≤ k ≤ N/2 に制限すると和の項が少なくなるので右辺の値は下がる: N ∑ ∑ N/2 Pn (x) ≥ n=1 Fk (x) N −k ∑ k=1 P` (0) (4.4.11) `=0 更に,この範囲の k に対しては N − k ≥ N/2 なので,` の和も 1` ≤ N/2 に制限すると,更に値は下がる: ∑ ∑ N/2 N/2 ≥ Fk (x) P` (0) = (N/2 ∑ (4.4.12) `=0 k=1 `=0 k=1 ) (N/2 ) ∑ P` (0) Fk (x) 従って, N ∑ ∑ N/2 Fk (x) ≤ k=1 Pn (x) n=1 N/2 ∑ (4.4.13) P` (0) `=0 が得られた. 逆側の不等式を作るには,まず,(4.4.10) の ` の和を 0 ≤ ` ≤ N まで拡げる.すると,和の数が多くなるから, 右辺の方が大きくなる: N ∑ Pn (x) ≤ n=1 N ∑ Fk (x) k=1 N ∑ P` (0) = N (∑ `=0 N ) (∑ ) Fk (x) P` (0) k=1 (4.4.14) `=0 すなわち, N ∑ N ∑ Fk (x) ≥ k=1 n=1 N ∑ Pn (x) (4.4.15) P` (0) `=0 も,得られた. この節の中間報告:r(x) については N ∑ n=1 N ∑ 2N ∑ Pn (x) ≤ P` (0) N ∑ Fk (x) ≤ k=1 `=0 n=1 N ∑ Pn (x) (4.4.16) P` (0) `=0 が成り立つ. N ∑ 後は (4.4.16) のそれぞれの分母子を計算すればよい. P` (0) については (4.4.8) で計算してある.Pn (x) につい `=0 ては,まず x = 2y が偶数の時から考える(ついでに x > 0 としておこう).この場合,n も偶数でないと Pn (x) = 0 になってしまうので, ( ) ∑ N N ∑ 1 1 2m (2m)! P2m (2y) = = Pn (2y) = m m−y m (m − y)! (m + y)! 4 4 m=y m=y m=y n=1 2N ∑ N ∑ = N ∑ m≈y = N ∑ m≈y 1 ( y )−(m−y+1/2) ( y )−(m+y+1/2) √ 1− 1+ m m πm 1 ( y 2 )−(m+1/2) ( y )y ( y )−y √ 1− 2 1− 1+ m m m πm (4.4.17) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 33 和は m = y からとるべきだが,実際に (4.4.16) で重要になるのはこの和の N → ∞ での発散の仕方である.これ は m が大きいところだけで決まるから,上で y/m が小さいものとして展開すると, ≈ N ∑ m≈y ) 1 ( y2 2 √ √ + ... ≈ √ N −(定数) 1− m πm π (4.4.18) 2 √ となる(最後のは N → ∞ で正しい).これを (4.4.16) に入れると,どちらの分母子も全く同じ速さ √ N で発 π 散することがわかる.すなわち, ∑ Fk (x) = 1 r(x) = (4.4.19) k>0 となり,この場合も(長い間待っておれば)そのうちに x を訪問することがわかる. x が奇数の時も本質的に同じ計算なので省略する.結果は同じで (4.4.19) が成り立ち,やはりいずれは x を訪問 することがわかる. x = 0 の時も本当は上のような議論をして,N → ∞ の極限を考えるべきであるが,話をややこしくしないため に省略した. 以上の結論:一次元ランダムウォークは十分に長い時間経てば必ず(確率1で),出発点に戻ってくる.また, 十分に長い時間経てば必ず(確率1で),どの点(x ∈ Z)にでも到達する. 4.4.4 2 次元ランダムウォークの Pn (x, y) の計算 では,2 次元の場合を考えよう.時刻 n で (x, y) にいる確率を Pn (x, y) と書いて,まずはこれを求めよう.この あとで,一般論を適用して,再帰性を判定する. 今度は1次元に比べてちと厄介である.上下左右に n 歩動いた結果として (x, y) にいると言うことは,それぞれ の方向にどれくらい動いたことになるだろうか? 東に ne 歩,西に nw 歩,北に nn 歩,南に ns 歩 だけ動いているとすると(e, w, n, s はそれぞれ,east, west, north, south の略),n 歩目での位置は, x = ne − nw , y = nn − ns (4.4.20) となっているハズである.また,全体で n 歩なのだから, ne + nw + nn + ns = n (4.4.21) の関係がある.この3条件をみたす ne , nw , nn , ns なら何でも良い. さて,このような ne , nw , nn , ns 歩で n 歩を行くやり方は何通りあるかと言うと,全体で n の時刻(ステップ) の中から ne 個の「東へ行くステップ」,nw 個の「西へ行くステップ」,等々をとるやり方だけある.これは ( ) ( ) ( ) ( ) ( ) n n − nr n − ne − nw n − ne − nw − nn n × × × = (4.4.22) ne nw nn ns ne nw nn ns 通りある(最後の量は「多項係数」).それぞれの行き方の確率はいつも ( 41 )n であるから,最終的に, Pn (x, y) = ∑0 ne ,nw ,nn ,ns ( ) 1 n 4n ne nw nn ns (4.4.23) となる.ただし,上の和は (4.4.20) と (4.4.21) の条件を満たすような ne , nw , nn , ns についてとる. (このように条 件が付いていることを明示するため,和の記号にプライムを付けた. ) 数学特論 A3 の後半 34 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 一つ,具体例をやってみよう.時刻 n で原点にいる確率 Pn (0, 0) を考える.Pn (0, 0) がゼロにならないためには n は偶数である必要がある.更に,(4.4.20),(4.4.21) の条件は(n = 2m と書く) ne = nw , n n = ns , n e + nn = ( ) n =m 2 (4.4.24) と言うことになる.よって,(4.4.23) より P2m (0, 0) = ∑ ne +nn 1 42m =m n ne ne nn nn m 1 ∑ = 42m `=0 (2m)! (`!)2 ((m − `)!)2 (4.4.25) となっている(最後のところでは ne を ` と書き,多項係数を具体的に書き下した). 4.4.5 2 次元ランダムウォークの再帰性 ここまで来れば,一般論を適用して,2次元のランダムウォークが再帰的かどうかも,1次元の時と同様に判定 できる.1次元の時に倣って, • Pn (x, y) とは「原点から出発したランダムウォークが時刻 n に (x, y) にいる確率」. • Fn (x, y) とは「原点から出発したランダムウォークが時刻 n で初めて (x, y) に到達する確率」. ただし,x = y = 0 の場合は Fn (0, 0) を「ランダムウォークが時刻 n で初めて原点に戻ってくる確率」とす る(n ≥ 2).また,F0 (0, 0) = 0 と決めておく. ∞ ∑ • G(x, y) := Pn (x, y) n=0 • r(x, y) := ∞ ∑ Fn (x, y).言葉では「ランダムウォークがいつかは (x, y) に到達する確率. n=0 を導入すると,(4.4.16) がそのまま成り立つ: N ∑ n=1 N ∑ 2N ∑ Pn (~x) ≤ P` (~0) N ∑ Fk (~x) ≤ k=1 `=0 n=1 N ∑ Pn (~x) (4.4.26) P` (~0) `=0 従って,ここに出てくる分母子を計算すればよい.一般の ~ x は大変なので,~x = ~0 (原点に戻ってくるかどうか) を考えよう. ちょっとずるいけども,以下の公式: n ( )2 ∑ n k=0 k ( = 2n n ) (4.4.27) を使うのが一番簡単である.この公式自身は, (1 + t)n × (1 + t)n = (1 + t)2n (4.4.28) の両辺を展開して tn の係数を比較すると証明できる.ともかく (4.4.25) に (4.4.27) を用いると, P2m (0, 0) = ( ) m ( )2 ( )2 [ ( )]2 m 1 ∑ (2m)! (m!)2 1 2m ∑ m 2m 1 2m 1 × = = = 42m (m!)2 (`!)2 ((m − `)!)2 42m m 42m m 4m m ` `=0 `=0 (4.4.29) となるので,更に Stirling の公式を用いて —— 右辺に出ている量は (4.4.7) の2乗であることに注意 —— ≈ 1 πm (4.4.30) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 35 となる.そこで N ∑ P2m (0, 0) ≈ m=1 N 1 ∑ 1 1 ≈ log N π m=1 m π (4.4.31) が得られるので,N 1 では (4.4.26) から N ∑ F2k (0, 0) ≈ 1 − k=1 1 N ∑ ≈1− π log N (4.4.32) P2m (0, 0) m=1 ぐらいであることがわかる.(4.4.26) には N だけでなく 2N も入っているが,log(2N ) = log N + log 2 であるこ となどを考えると,大まかな振る舞いは (4.4.32) で良い. と言うわけで,2次元でも r(0, 0) = ∞ ∑ F2k (0, 0) = 1 (4.4.33) k=1 であり,ランダムウォークは再帰的であることがわかった14 . 4.4.6 1 次元と 2 次元,戻ってくるための歩数 ついでに, (確実に)原点に戻ってくるためにはどのくらいの歩数が必要か,考えておこう.ランダムウォークには 色々なものがあるから,あるものは短い歩数で戻ってくるし,あるものはなかなか戻ってこない. 「無限時間まで待 てば確実に戻ってくる」と言うのが上の結論だが,無限時間も待たない場合,何パーセントくらいのランダムウォー クが戻ってきていないだろうか,と言うことを考えたい. この問に対する答は1次元と2次元でかなり異なる.1次元の場合は (4.4.32) に相当する計算を行うと, √ N ∑ 1 π F2k (0) ≈ 1 − N (4.4.34) ≈1− √ ∑ 2 N k=1 P2m (0) m=1 1 となっている(ちょっと N と 2N をごまかしたが. . . ).これから時刻 N では全体の √ くらいの割合のランダ N ムウォークが原点に返って来ていない,と結論できる.2次元では (4.4.32) であるから,時刻 N で帰ってきてい π ないのは である. log N 勿論,1次元でも2次元でも,帰ってきていないウォークの割合は,N → ∞ ではゼロになる.ただ,ここで見 たように,ゼロになるなり方は2次元では非常に遅い.N = 108 の時,1次元ではたったの 0.01% だけが帰って きていないのに対し,2次元では 17% くらいも帰ってきていないのだ.N = 1032 まで待っても,2次元では 4% も帰っていない. 上では原点に戻ってくることを考えたが,一般の点 (x, y) にたどり着く確率も同様の振る舞いをする.つまり, 無限時間待てば,任意の点 (x, y) に必ずたどり着く.ただし,たどり着くまでの時間は2次元では非常にかかる. (と言うことは酔っぱらいのおっさんは家にたどり着く前に餓死している公算が高い. . . ) 4.4.7 3次元のランダムウォークの再帰性? 3 次元のランダムウォークも 1,2 次元とあまり変わらない事は既に見た. 大きな差が出るのは再帰性に関してである.2次元でもなかなか帰って来なかったんだから3次元ならもっと帰っ てこないことは予想できる. (1次元では2方向ある内の一つを選べば帰れるが,2次元では4方向の内の1つを選 ばないといけない.3次元では6方向中の1方向で,いよいよ大変. ) この問題はやはり,(4.4.16) や (4.4.26) に相当する式を計算することによって解決される.特に問題になるのは ∞ ∑ Pn (~0) が有限か否か,である.この計算は余りに大変なので省略し,結果だけを述べると, 今までと同じく, k=0 14 ただし,再帰確率が 1 に収束する速さは,1 次元と 2 次元では全く異なることに注意.これは次の小節のテーマでもある 数学特論 A3 の後半 36 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) ∑ 3次元では(更に4次元以上でも), Pn (~0) は有限である.従って,ランダムウォークは推移的で, n いくら待っても原点に戻ってこないものがたくさん存在する. いろんな次元における r(~0) (いつかは原点に戻ってくる確率)の値を表にしておこう. d 3 4 5 6 7 8 9 10 r 0.3405373 0.1932017 0.1351786 0.1047155 0.0858449 0.0729126 0.0634477 0.0561975 次元が大きくなるほど帰って来にくい.例えば,仮想的に10次元(!)の空間を考えると,いくら待っても 5.6% しか帰ってこない事がわかる. (注)この講義ではあまり難しいテクを使わず,地道に計算したため,この3次元くらいになると「お手上げ」 の観がある.これについては,次節で. 4.5 フーリエ(級数)変換と再帰性 さて,上のやり方では,再帰的かどうかの判定がかなり大変である.要するに ∑ Pn (~0 ) さえ求めれば良いので n はあるが,この計算が大変.そこで,この節と次の節では,もっと一般にこれを求める方法を述べる.この方法は 「解析 II」でもっと詳しく習うであろうから,ここでは必要最小限だけを述べる. 4.5.1 フーリエ(級数)変換とは まず,Z 上の関数 f を考える.x ∈ Z での値は f (x) とかく.これは関数とは言っても,整数の x でのみ定義され ているから,数列だと思った方が良いかもしれない.議論を厳密にするために, ∑ |f (x)| < ∞ (4.5.1) x∈Z を仮定しておく. さてともかく,この f (x) に対して,天下りではあるが,以下の量を考える: fˆ(k) := ∑ f (x) e−ikx (4.5.2) x∈Z ここで,i は虚数単位,また,k ∈ [−π, π) は実数である.(4.5.1) により,この和はちゃんと定義されているが,面 白いことは,fˆ(k) を知れば,これから元の f (x) が再現できることである: ∫ π f (x) = −π 実際,計算してみると ∫ π −π ∫ dk ikx ˆ e f (k) 2π dk ikx ∑ f (y) e−iky e −π 2π y∈Z ∫ π ∫ π ∑ dk ikx −iky ∑ dk ik(x−y) f (y) = f (y) e e = e −π 2π −π 2π y∈Z y∈Z ∑ f (y) δx,y = f (x) = dk ikx ˆ e f (k) = 2π (4.5.3) π (4.5.4) y∈Z となっている.上で勝手に積分と和の順序を交換したが,これは仮定 (4.5.1) の絶対収束条件(+ α)によって保証 されるものである(詳細は「解析 II」の講義で説明されるはず). 数学特論 A3 の後半 37 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) f から fˆ を作ることをフーリエ変換,fˆ から f を作ることをフーリエ逆変換という15 .これは次節の例でもわか るように,非常に強力な解析の手段である16 . さて,以上の結果は多次元にも拡張できる.結果だけを書くと,Zd 上の関数 f が条件 ∑ |f (x)| < ∞ (4.5.5) x∈Zd を満たしているとき, fˆ(k) := ∑ e−ik·x f (x) k ∈ [−π, π)d , k · x = ここで d ∑ kj xj (4.5.6) j=1 x∈Zd を定義すると ∫ f (x) = [−π,π)d dd k ik·x ˆ e f (k) (2π)d (4.5.7) が成り立つのである. 4.5.2 一般の次元での再帰性の判定 では,前節の結果をもとにして,一般の次元 Zd での再帰性を考えよう.そのために,0 < p ≤ 1/(2d) なる実数 p に対して, Gp (x) := ∑ x ∈ Zd pn Pn (x) (4.5.8) n を定義しよう.ここで Pn (x) とは 2 次元などの時も使ったけども,原点を出発したウォークが,n 歩めに x にいる 確率である.n 歩のランダムウォークの数は (2d)n 以下であるから,上の和は少なくとも 0 < p < 1/(2d) ではちゃ んと定義できている. さて,この Gp (x) については, (今はここを詳細に説明する時間がないので略します.詳しくは講義で説明の予定) Gp (x) = δ0,x + p ∑ Gp (x − y) (4.5.9) |y|=1 の関係式が満たされる.そこで,この両辺に e−ik·x をかけて x で和を取ると Ĝp (k) = 1 + 2dpD̂(k) Ĝp (k) (4.5.10) が得られる.ここで Ĝp (k) = ∑ e−ik·z Gp (z), D̂(k) = d 1 ∑ −ik·y 1∑ cos kj e = 2d d j=1 (4.5.11) |y|=1 z∈Zd である.これから直ちに Ĝp (k) = が得られるので,これを逆変換して ∫ Gp (x) = [−π,π)d 1 (4.5.12) 1 − 2dpD̂(k) dd k ik·x e Ĝp (k) = (2π)d ∫ [−π,π)d dd k ik·x 1 e (2π)d 1 − 2dpD̂(k) (4.5.13) 15 通常,フーリエ変換を考える場合には,閉区間上の関数(上の fˆ に相当)を先に考え,これから上の f に相当する数列を作る.この方法を フーリエ級数変換といい,逆方向をフーリエ級数逆変換という.また,単にフーリエ変換というと,R 上の関数から R 上の関数への類似の変換 を指す.しかし,我々の今の問題では出発点が数列の形の f であったため,f から fˆ の方向を敢えて「順」方向の変換と呼んだ.また, 「級数」 変換か否かを区別することもこの段階では意味がないだろうと考えて,緩やかに「フーリエ変換」と呼んでいる.この辺りの詳しい話は「解析 II」を楽しみにしていて下さい 16 そもそも,この手法を考えだしたフーリエは,拡散方程式という偏微分方程式を解きたいと思って試行錯誤しているうちにこの方法を見い だしたと言われている 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 38 がでる.ただし,p の範囲は 0 < p < 1/(2d) である. ∑ さて,我々の欲しかったのは Pn (~0 ) であるが,これは上の左辺で x = 0, p = 1/(2d) としたものに相当する. n しかし,x = 0 の場合,右辺の被積分関数は正で,かつ p について単調増加.従って, ∑ n ∫ Pn (~0 ) = G1/(2d) (0) = lim−1 p↑(2d) [−π,π)d dd k 1 (2π)d 1 − 2dpD̂(k) (4.5.14) が成り立つ.これで欲しかった量の積分表示が得られた. (時間不足のため,すこし議論を粗くしてしまったが,上 の議論は皆さんが今まで習ったことで完全に正当化できる. ) この積分は p ↑ (2d)−1 につれて,k = 0 のところが特異点になるから,そこでの積分が収束するか否かを考えれば 良い.やってみると,d > 2 なら収束,d ≤ 2 なら発散,とわかる.再帰確率の表式を思い出すと,これから d > 2 では推移的,d ≤ 2 なら再帰的,ということがわかる. 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 39 第3回レポート問題: (2/1 出題) ランダムウォークについての問題 2 つです. レポート提出について: 締め切りは 2013 年 2 月 12 日(火)の 15:00 , 提出場所は数理事務室内のレポート提出ポスト とします. 問1. (1 次元や 2 次元で, 再帰的でないランダムウォークを作る問題) Zd 上のランダムウォークについて,その再帰確率の計算は講義で行った.そして「単純」ランダムウォークは,1 次元でも 2 次元でも再帰的であることを見た. そこで,この問題では 1 次元で再帰的にならないようなランダムウォークの例を作ってみよう. (1 次元より 2 次 元の方がやりやすい側面もある.2 次元が良い人は 2 次元をやっても良い. ) (1) 具体的には,隣り合った点だけでなく,より遠距離に跳ぶようなランダムウォークを考える.そのランダム ウォークの x から y への遷移確率を px,y = f (y − x) として,f を適切に与えて,再帰的でないものを作ると よい.例えば,f (x) = C|x|−α (C は規格化定数,α はこれから選ぶ定数) の形のものを考えるとどうなるか —— どのように α をとるべきか? —— などと考えてみると良いだろう.ただし,ランダムウォークが対称 になるように,f (x) = f (−x) なる f の範囲で探すこと. (一般に対称でなければ再帰的でないので,対称でな いウォークを考えると簡単すぎる. ) (2) 上で選んだ f (x) が,実際に再帰的でないランダムウォークを与えることを証明せよ (厳密にやるのは少し難 しいかも). 問2. Zd 上の単純ランダムウォークは d ≥ 3 では再帰的ではない,ことも講義でやった.つまり,再帰確率は 1 よ り小さい訳だが,これを単純ランダムウォークについて計算するのはなかなか難しい.そこで,この問題では以下 のように遠距離まで跳ぶランダムウォークを考えて,その場合の再帰確率を求めよう. L は大きな正の整数とする.考えるランダムウォークは,現在いる点から距離 L 以下の点に等確率で跳ぶものと する.つまり,x, y ∈ Zd に対して,一歩で x から y に跳ぶ確率は,kxk = max |xj | として, 1≤j≤d px,y = 1 (2L+1)d −1 0 (0 < kx − yk ≤ L) (その他) とするのである.このようなランダムウォークの原点への再帰確率を rL と書く. (1) L → ∞ の時,rL はどのような値に近づくか?この極限値を α とする. (2) (余力があれば解いてほしい)L → ∞ の時に,rL は α にどのような速さで近づくか(1/L のようであると か,e−L のようであるとか. . . ),考察せよ. レポートのお約束:友達と相談しても,本を調べても,何をやっても良いから,自分で理解した範囲を書くこ と.その際,参考文献や議論した友達の名前も明記すること. (友達と議論したり本を見たからと言って,悪い 点をつけることは絶対にしない.一番大事なのは自分でわかったところを表現することだから,それまでの過 程で何をやっても問題ない. ) 数学特論 A3 の後半 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) 40 第 2 回レポートの略解: 問1 (a) こっちは単なる計算です. U の定義から,U u の i 成分は (U u)i = ∑ j Uij uj = ∑ uj = 1 = (d)i j となる.つまり,U u = d なのである. T u = u なら (I − T + U )u = u − T u + U u = U u = d がなりたつ.また同様に,(I − T + U )u = d なら,両辺 から U u = d を引いて,(I − T )u = 0 が出る. (b) この問題, 「強い連結性」を仮定すればまあまあ簡単なんですが, 「弱い連結性」だけで頑張ろうというのが面白 いところです.上で T u = u と (I − T + U )u = d の同値性は示しているので,弱い連結性の下で,行列 (I − T + U ) の正則性を示せば終わりである.問題はこの正則性をどう示すか,であるが,弱い連結性の帰結「固有値 1 に属す る固有空間は 1 次元である」ことを利用する. 行列行列 (I − T + U ) が正則でないとして,矛盾を導こう.これが正則でないとはその行列式がゼロと同値でこ れはまた,ゼロを固有値に持つとも同値である.つまりゼロでないベクトル x があって. (∗) (I − T + U )x = 0 となっているはずなのだ.以下,これが矛盾である(従ってこんな x はない)という. さて,T u = u は (I − T + U )u = d と同値である.これと上の (*) の α 倍を足すと (I − T + U ) (u + αx) = d を得る.ところが,これは (1) により, (∗∗) T (u + αx) = u + αx と同値であり,(**) は u + αx が,T の固有値 1 の固有空間の元だと主張している. ところが T は弱連結なので,この固有空間は 1 次元である.つまり,u + αx は u の定数倍でなければならない (すべての α に対して).これから x と u が比例する事がわかる: x = cu ここで,x 6= 0 なので,c 6= 0. でも,この両辺に (I − T + U ) をかけると (I − T + U )x = c(I − T + U )u = cd が得られ,右辺はゼロでない.しかし,もともとの x の定義では (I − T + U )x = 0 であって,上と矛盾が生じた. よって,こんな x はそもそも存在しない. (b) の別解その 1. ともかく (I − T + U ) が正則であることを言えば良い.そのために,(I − T + U ) の列ベクトルを x1 , x2 , . . . , xΩ として,その独立性を判定しよう.つまり (∗) (I − T + U )x = 0 (これは上の解の (*) と同じなので (*) とした. ) の解は x に限る,ということを狙う. (*) の両辺を各成分で足し合わせると ∑( i (I − T + U )x ) =0 i 数学特論 A3 の後半 41 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) となるが,これを成分で具体的に書けば 0= ∑ ∑ ∑ (I − T + U )ij xj = (1 − 1 + Ω) xj = Ω xj i,j つまり, j ∑ つまり xj = 0, j Ux = 0 j がわかる. 従って,(*) は (∗ ∗ ∗) (I − T )x = 0、 Tx = x を意味する.これは x が(零ベクトルであるか)T の,固有値 1 に属する固有ベクトルであるか,を示している. 前者ならばこちらの臨んだ結果で O.K. だ.後者の場合は, 「T の固有値 1 に属する固有空間は 1 次元」かつ「その 固有ベクトルは全ての成分を非負にとれる」ことを用いると,ありえない. (なぜなら,x の各成分を同符号にとれ Ω ∑ るはずだが, xj = 0 なら,これはすべての xj = 0 となるしかない. j=1 (b) の別解その 2. (何人かの人が協力して,上と異なる解答を書いていました.素晴らしいので紹介します.告 白すると,僕はその解答を間違っていると思い込んで×にしており,反論されて気付きました.お恥ずかしい. . . . ) 上の「別解 1」の通りに進んで,(***) までくるのは同じ.上の別解では既知の結果として「T の固有値 1 に属す る固有空間は 1 次元」かつ「その固有ベクトルは全ての成分を非負にとれる」こと,を用いたが,これらを証明す るような方法で直接,x = 0 しかない,ことを証明する. 今,(***) を満たす x があり,これがある i 6= j に対して,xi xj < 0 だったとして矛盾を導こう. ((***) は係数が 実数の連立方程式だから,その解は(実部と虚部に分けてみれば)常に実数にとれる. )もし,これが矛盾だと言え ∑ れば,xj はすべて同符号ということになる.しかし一方で上で見たように,x は xj = 0 を満たしているので, j xj が同符号であれば,xj ≡ 0 しかない,と言えて証明が終る. 以下,この矛盾を示そう.弱い連結性の仮定からこの i, j に対して n が存在して ( Tn ) ij >0 となっている.さて,(***) に T を (n − 1) 回かけると Tn x = x が得られるが,この第 i 成分を具体的に書くと ∑( ) ( ) ( ) xi = T n x i = T n ik xk = · · · + T n ij xj + · · · k となる. ( ) さて,xi > 0 とすると,左辺はもちろん正.一方,右辺の T n ij xj は負であるから,· · · を合わせたものは正 でないといけない(そうでないと右辺が正にならない).つまり,右辺には正の量と負の量が共存している事にな るので,両辺の絶対値をとれば (∗ ∗ ∗∗) ∑( n ) ( n ) ≤ xi < · · · + T x T ik |xk | j ij k が成り立つ事がわかる.xi < 0 の場合は −xi = · · · とすることで,全く同様の議論が成り立ち,結果として上の不 等式が証明される.一方,第 i 成分以外は単に三角不等式により (∗ ∗ ∗ ∗ ∗) |xl | ≤ ∑( k Tn ) lk |xk | (l 6= i) 数学特論 A3 の後半 42 (原; http://www2.math.kyushu-u.ac.jp/˜hara/lectures/lectures-j.html) が成り立つ.(*****) の l 6= i と (****) を辺々足すと, ∑ l |xl | < ∑ ∑( l Tn ) |xk | = lk ∑(∑( k k Tn ) ) lk l |xk | = ∑ |xk | k これは矛盾である.つまり「ある i 6= j にて xi xj < 0」ということは起こりえず,xj の符号はすべて等しい. 苦言:かなりの人が「ベクトル d の行列式」というもの凄いものを発明していました.もちろん,意味のあるもの なら良い(すばらしい)ですが,僕には全くのナンセンスとしか見えません —— そもそも Ω × 1 行列の行列式と はなに?結論が見えているからと言って,何でも書けば良いというものではありません.できないならできないと 潔く書く方がよっぽどマシです.数学科の学生として,これはあまりに目に余ったので書いておきます. 問2 (1)(2) Ω = 2 の例をやるよ.以下は例です. (a) の例は [ 0.8 T = 0.2 ] 0.3 0.7 この場合,固有値は 1 と 1/2 で,一般論から,最終的には (3/5, 2/5) の定常状態に行く. (b) の例は [ 0 T = 1 1 0 ] である.この場合,例えば (1, 0) から出発するとそのあと (0, 1) と (1, 0) を行ったり来たりし続ける.このとき,絶 対値 1 の固有値の固有ベクトルが 2 つ以上あるわけ. (3) 論理的にあり得る可能性は, 「最終状態は 2 つ以上あって,この初期条件から出発すると最終状態 A に,あの 初期条件から出発すると最終状態 B に,収束する」ようなものである.非常にショウモナイ例としては [ ] 1 0 T = 0 1 がある.この場合,状態が全く変わらないので,(1, 0) なら (1, 0) のまま,(0, 1) なら (0, 1) のままであるし,その 中間もそのままである.Ω ≥ 3 なら,この taste の例をいろいろ作れる. もうちょっとマシな例は,互いに連結されていないようなマルコフ連鎖を共存させたものである.たとえば,上 の (1)(2) の例を対角的に組み合わせて 0.8 0.3 0.2 0.7 T = 0 0 0 0 0 0 0 0 1 1 0 0 としてみる.この場合,初期分布が上の 2 成分のみゼロでない,なら最終的には定常分布 (3/5, 2/5, 0, 0) に行く.逆 に下の 2 成分のみノンゼロなら,(0, 0, 1, 0) と (0, 0, 0, 1) を行ったり来たりし続ける.さらに上下ともノンゼロなら 上の 2 成分は定常分布へ,下の 2 成分は振動を繰り返す.
© Copyright 2024 Paperzz