ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 4. ΠΛΗΡΟΦΟΡΙΑ και ΕΝΤΡΟΠΙΑ Ioannis E. Antoniou Mathematics Department Aristotle University 54124,Thessaloniki,Greece iantonio@math.auth.gr http://users.auth.gr/iantonio Θερμοδυναμικη Εντροπια Εντροπια Βοltzmann. Παρατηρηση Moριακης Καταστασης Συστηματος Εντροπια Shannon. Mεση Πληροφορια Παρατηρησης Εφαρμογες Eντροπιας Eντροπια Κατανομων Πιθανοτητας Κατανομες Μεγιστης Εντροπιας Εντροπια Μοναδικοτης Εντροπια και Πιθανοτητα Οι 3 Ορισμοι της Εντροπιας Θερμοδυναμικη Εντροπια Εντροπια Βοltzmann Παρατηρηση Moριακης Καταστασης Συστηματος Εντροπια Shannon Mεση Πληροφορια Παρατηρησης Θερμοδυναμικη Eντροπια H Θερμοδυναμικη Eντροπια της Kαταστασης (κ) οριζεται από τoν τυπο Clausius 1860: ℐΘ = S = S(κ) = Q0,1 T0 + Q1,2 T1 + ⋯+ Qn−1,n T𝑛−1 = Qν,ν+1 n−1 ∑ν=0 T για οποιαδηποτε Αναστρεψιμη Διαδικασια: ν κ dQ = ∫0 T κ0 → κ1 → κ2 → … → κn−1 → κ ≡ κn από την κατασταση Αναφορας κ0 προς στην κατασταση κ≡ κn μεσω n βηματων με ενδιαμεσες καταστασεις: κ1 , κ2 , … , κn−1. Qα,β η θερμότητα που εισερχεται στο σύστημα απο το περιβάλλον του, Κατά την μεταβολή α→β Τα η θερμοκρασία υπό την οποία συμβαίνει η μεταβολή α→β ΕΜΠΕΙΡΙΚΗ Υποθεση: 1) Κάθε φυσικη κατασταση κ είναι προσβασιμη από την κατασταση αναφορας “0” μεσω τουλαχιστον μιας Αναστρεψιμης Διαδικασιας, κατά την οποια ανταλλασσεται μονο Θερμοτητα μεταξυ Συστηματος - Περιβαλλοντος 2) Οιεσδηποτε φυσικες καταστασεις κ,λ είναι προσβασιμες η μια από την αλλη μεσω τουλαχιστον μιας Αναστρεψιμης Διαδικασιας κατά την οποια ανταλλασσεται μονο Θερμοτητα μεταξυ Συστηματος - Περιβαλλοντος 3) Για μια οποιαδηποτε Μη Αναστρεψιμη Διαδικασια: κ → λ: ΔS = S(λ) – S(κ) ≥ ∑n−1 ν=0 Η Εντροπια αυξανει (2η Αρχη Θερμοδυναμικης) Qν,ν+1 Tν ≥0 ΑΝΑΦΟΡΕΣ Pauli W. 1973, Thermodynamics and the Kinetic Theory of Gases, Vol. 3 of Pauli Lectures on Physics, MIT Press Massachusetts Kondepudi D., Prigogine I. 1998, Modern Thermodynamics: From Heat Engines to Dissipative Structures, Wiley, New York Entropy is the Αverage Information necessary to reproduce the state-situation from some reference state (equilibrium) Entropy increases in the Future 2nd Principle of Thermodynamics [Clausious 1850s] Statistical Thermodynamic Equilibrium Scotch on the Rocks Order Inhomogeneity Far From Equilibrium Dis-Order Homogeneity Equilibrium Gas Mixing Order Inhomogeneity Far From Equilibrium Dis-Order Homogeneity Equilibrium Εντροπια Βοltzmann. Παρατηρηση Moριακης Καταστασης Συστηματος Τι σημαινει η Εντροπια Clausius στο Μοριακο Επιπεδο? Πως ερμηνευεται η Αυξηση Εντροπιας στο Μελλον? Ορισμος Eντροπια Boltzmann της Παρατηρουμενης Μεταβλητης ℐBOLTZMANN = S = kln𝒲 k=σταθερος αριθμος εξαρτωμενος απο την μοναδα μετρησης 𝒲 = Wahrscheinlichkeit = thermodynamic probability ο αριθμος των δυνατων μοριακων καταστασεων που αντιστοιχουν- οδηγουν-είναι συμβατες με το αποτελεσμα της Παρατηρησης της Μεταβλητης ο αριθμος των Complexions The Entropy Formula was proposed by Boltzmann between 1872 to 1875. Boltzmann L. 1898, Lectures on Gas Theory, Translation of Vorlesungen tiber Gastheorie , by S. G. Brush. Berkeley: Univ. of California Press, 1964. Παρατηρηση Αεριου Πειραματικη Διαταξη Y = o Δειγματοχωρος = το συνολο των δυνατων καταστασεων (θεσεις, ορμες) των μοριων του αεριου ℬ τα Παρατηρησιμα Ενδεχομενα, Γεγονοτα τα Μετρησιμα Συνολα, οι παρατηρησιμες τιμες των καταστασεων πχ οι μετρησιμες τιμες ε1 , ε2 , ... , εn της Κινητικης Ενεργειας των μοριων οριζουν την διαμεριση ξ του Y στα κελλια Ξ1 , Ξ2 , ... , Ξn . Τα μορια με Κινητικη Ενεργεια εν ανηκουν στο κελλι Ξν , ν=1,2,…,n { Ξ1 , Ξ2 , ... , Ξn } αδρη περιγραφη (coarse grained description) {y} λεπτομερης περιγραφη (fine grained description) Αποτελεσμα Μετρησης η Θεωρητικης Εκτιμησης Eπειδη συνηθως δεν ειναι γνωστη η μοριακη κατασταση y, Εκτιμουμε πιθανολογικα p κατανομη Πιθανοτητος στα Μετρησιμα Υποσυνολα Ξ1 , Ξ2 , ... , Ξn Η p προκυπτει απο Στατιστικη Εκτιμηση των Παρατηρησεων ειτε απο Θεωρητικη Υποθεση Hypothesis: Τhe molecules are independently distributed in the cells Ξ1 , Ξ2 , ... , Ξn , with corresponding probabilities p1 , p2 , ... , pn Maxwell – Boltzmann Energy distribution: pν = 𝜀 − 𝜈 𝑒 𝑘𝑇 𝑍𝑛 , ν=1,2,…,n 𝜀𝜈 ∑𝑛𝜈=1 𝑒 − 𝑘𝑇 𝑍𝑛 = function) the normalization constant (partition Maxwell – Boltzmann Speed distribution: p(υ) = 1 𝛼3 � 2 𝜋 𝜐2 − 𝜐 2 𝑒 2𝛼2 Τhe Boltzmann Entropy of the Ideal Gas of m molecules. The Observation of the n values ε1 , ε2 , ... , εn of the Kinetic Energy of the m molecules gives: m1 molecules with Kinetic Energy ε1 m2 molecules with Kinetic Energy ε2 ... mn molecules with Kinetic Energy εn m1 , m2 , ... , mn are the numbers of molecules in the cells Ξ1 , Ξ2 , ... , Ξn m1 + m2 + ... + mn = m 𝒲 [m1 , m2 , ... , mn] = m! m1 !m2 !…mn ! Θεωρημα ℐB (m1 , m2 , ... , mn) ≅ m [−𝒌 ∑𝐧𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚 ] , m With the Hypotheses: pa≅ a and m large m Αποδ ℐB = kln[m1 , m2 , ... , mn] = kln� = k [ln(m!) − ∑na=1 ln(ma !)] m! �= m1 !m2 !…mn ! , Stirling Formula: lnx!≅xlnx-x , x large, error estimation {EΡΓ 0.2} ≅ k [𝑚𝑙𝑛(𝑚) − 𝑚 − ∑na=1 ma ln(ma ) + ∑na=1 ma ] = k [𝑚𝑙𝑛(𝑚) − ∑na=1 ma ln(ma )] = k [𝑚𝑙𝑛(𝑚) − ∑na=1(mpa ) ln(mpa ) ] , pa≅ ma m , m large = k [𝑚𝑙𝑛𝑚 − ∑na=1(mpa ) ln(pa ) − ∑na=1(mpa ) ln(m) ] = m [−𝑘 ∑na=1 pa ln pa ] ℐB (8, 0) = −k8(1ln1+0ln0) = 0 𝟔 𝟔 𝟐 𝟐 𝟓 𝟓 𝟑 𝟑 𝟒 𝟒 𝟒 𝟒 ℐB (6, 2) = −k8( ln + ln ) =−8k(−0.216−0.347) = 8k 0.563 𝟖 𝟖 𝟖 𝟖 ℐB (5, 3) = −k8( ln + ln ) =−8k(−0.293−0.368) = 8k 0.661 𝟖 𝟖 𝟖 𝟖 ℐB (4, 4) = −k8( ln + ln ) = 8k 0.693 𝟖 𝟖 𝟖 𝟖 Υπολογιστε την Eντροπια Boltzmann για 4 καταστασεις αεριου 2Ν Μοριων 1) 2Ν μορια στο κελλι Ξ1 , 0 μορια στο κελλι Ξ2 2) 2Ν-λ μορια στο κελλι Ξ1 , λ μορια στο κελλι Ξ2 3) 2Ν-λ-1 μορια στο κελλι Ξ1 , λ+1 μορια στο κελλι Ξ2 4) Ν μορια στο κελλι Ξ1 , Ν μορια στο κελλι Ξ2 Τι διαπιστωνετε? Eργασια 0.5 Υπολογιστε την Eντροπια Boltzmann για 4 καταστασεις αεριου 2Ν λευκων Μοριων και 2Ν μαυρων Μοριων 1) 2Ν μαυρα μορια στο κελλι Ξ1 , 0 μαυρα μορια στο κελλι Ξ2 0 λευκα μορια στο κελλι Ξ1 , 2Ν λευκα μορια στο κελλι Ξ2 2) 2Ν-μ μαυρα μορια στο κελλι Ξ1 , μ μαυρα μορια στο κελλι Ξ2 λ λευκα μορια στο κελλι Ξ1 , 2Ν-λ λευκα μορια στο κελλι Ξ2 3) 2Ν-μ-1 μαυρα μορια στο κελλι Ξ1 , μ+1 μαυρα μορια στο κελλι Ξ2 λ+1 λευκα μορια στο κελλι Ξ1 , 2Ν-λ-1 λευκα μορια στο κελλι Ξ2 4) Ν μαυρα μορια στο κελλι Ξ1 , Ν μαυρα μορια στο κελλι Ξ2 Ν λευκα μορια στο κελλι Ξ1 , Ν λευκα μορια στο κελλι Ξ2 Τι διαπιστωνετε? Eργασια 0.5 Παραδειγμα: Ριψη 2 Ζαριων Δειγματοχωρος (𝟏, 𝟏), (𝟏, 𝟐), (𝟏, 𝟑), (𝟏, 𝟒), (𝟏, 𝟓), (𝟏, 𝟔) ⎧(𝟐, 𝟏), (𝟐, 𝟐), (𝟐, 𝟑), (𝟐, 𝟒), (𝟐, 𝟓), (𝟐, 𝟔)⎫ ⎪ ⎪ (𝟑, 𝟏), (𝟑, 𝟐), (𝟑, 𝟑), (𝟑, 𝟒), (𝟑, 𝟓), (𝟑, 𝟔) 𝜰= ⎨(𝟒, 𝟏), (𝟒, 𝟐), (𝟒, 𝟑), (𝟒, 𝟒), (𝟒, 𝟓), (𝟒, 𝟔)⎬ ⎪(𝟓, 𝟏), (𝟓, 𝟐), (𝟓, 𝟑), (𝟓, 𝟒), (𝟓, 𝟓), (𝟓, 𝟔)⎪ ⎩(𝟔, 𝟏), (𝟔, 𝟐), (𝟔, 𝟑), (𝟔, 𝟒), (𝟔, 𝟓), (𝟔, 𝟔)⎭ Kαταστασεις y= (κ,λ), κ,λ =1,2,3,… Μετρηση Sum RV 2 3 4 5 6 7 8 9 10 11 12 Observable Events Μετρησιμα Συνολα Ξ2 ={ (1,1)} Ξ3 ={ (1,2), (2,1)} Ξ4 ={ (2,2), (1,3),(3,1)} Ξ5 ={ (1,4), (2,3),(3,2), (4,1)} Ξ6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)} Ξ7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)} Ξ8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)} Ξ9 ={ (3,6), (4,5),(5,4), (6,3)} Ξ10 ={ (4,6), (5,5),(6,4)} Ξ11 ={ (5,6), (6,5)} Ξ12 ={ (6,6)} Probability 1/36=3% 2/36=6% 3/36=8% 4/36=11% 5/36=14% 6/36=17% 5/36=14% 4/36=11% 3/36=8% 2/36=6% 1/36=3% Eντροπια Boltzmann m ριψεων των 2 Ζαριων η Eντροπια παρατηρησης m Ισονομων και Ανεξαρτητων Tυχαιων Mεταβλητων Αποτελεσμα: m2 φορες το αθροισμα 2 m3 φορες το αθροισμα 3 … m12 φορες το αθροισμα 12 ℐB (m1 , m2 , ... , mn) ≅ m �−𝒌 ∑𝟏𝟐 𝐚=𝟐 𝐩𝐚 𝐥𝐧 𝐩𝐚 � 1 2 2 3 3 4 4 5 5 6 6 1 = 𝒎𝒌 �−𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝟐 𝒍𝒏 − 𝒍𝒏 � 36 36 36 36 36 36 36 36 36 36 36 36 1 1 1 5 36 1 1 = 𝒎𝒌 � 𝒍𝒏𝟑𝟔 + 𝒍𝒏𝟏𝟖 + 𝒍𝒏𝟏𝟐 + 𝒍𝒏𝟗 + 𝒍𝒏 + 𝒍𝒏𝟔� 9 6 8 18 5 6 18 = 𝒎𝒌 � 1 1 1 5 1 1 𝟑. 𝟓𝟖𝟑𝟓 + 𝟐. 𝟖𝟗𝟎𝟒 + 𝟐. 𝟒𝟖𝟒𝟗 + 𝟐. 𝟏𝟗𝟕𝟐 + 𝟏. 𝟗𝟕 + 𝟏. 𝟕𝟗𝟏𝟖� 9 6 8 18 6 18 = 𝒎𝒌 (𝟎. 𝟏𝟗𝟗𝟎 + 𝟎. 𝟑𝟐𝟏𝟏 + 𝟎. 𝟒𝟏𝟒𝟏 + 𝟎. 𝟐𝟕𝟒𝟔 + 𝟎. 𝟓𝟒𝟕𝟐 + 𝟎. 𝟐𝟗𝟖𝟔) 𝓘𝐁 (𝐦𝟏 , 𝐦𝟐 , . . . , 𝐦𝐧 ) ≅ 𝒎𝒌 𝟐. 𝟎𝟓𝟒𝟔 Eντροπια Boltzmann ανα Μοριο 𝑱𝑩𝑶𝑳𝑻𝒁𝑴𝑨𝑵𝑵 (𝒎𝟏 ,…,𝒎𝒏 ) 𝐦 ≅ 𝐦 [−𝒌 ∑𝐧 𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚 ] 𝐦 =−𝒌 ∑𝐧𝐚=𝟏 𝐩𝐚 𝐥𝐧 𝐩𝐚 Planck M. 1900, Verh. Deutsch. Phys. Ges., 2, 237 Planck M. 1930, Vorlesungen über Thermodynamik, De Gruyter Berlin, English Translation Dover 1945. "the logarithmic connection between Entropy and Probability was first stated by L. Boltzmann in his kinetic theory of gases." Gibbs Entropy is a generalization of Boltzmann Entropy Eντροπια Gibbs 1878 ℐG= −𝑘 ∑a pa ln pa , for discrete microstates ℐG= −k∫V dy p(y) ln p(y) , for continuous microstates Gibbs J. 1902, Elementary Principles of Statistical Mechanics Yale Univ. Press; Dover Reprint, New York. (Shannon) Entropy as Average Information of Observation Εντροπια Shannon από την Εντροπια Boltzmann Shannon Entropy (Information) of the Message (ψ1, ψ2 , ... , ψm) of size m prepared from n symbols {σ1, σ2, ... σn} Each term in the message may be any of the symbols {σ1, σ2, ... σn} p1 , p2 , ... , pn the probabilities of occurrence of the symbols {σ1, σ2, ... σn} in the Message ℐSHANNON = − ∑𝒏𝒂=𝟏 𝒑𝒂 𝒍𝒐𝒈𝟐 𝒑𝒂 = Boltzmann Molecule Gas of m Molecules Cell = ObservableMeasurable state of each Molecule of the Gas 𝟏 𝒍𝒏𝟐 𝓘𝑩𝑶𝑳𝑻𝒁𝑴𝑨𝑵𝑵 𝒎 = Boltzmann’s Entropy per Molecule Shannon Term in a Message Message of m Terms Symbol = ObservableRegistrable state of each Term of the Message Probability Theory Random Variable m Random Variables Cell of the Partition of The Random Variable ℐSHANNON = ∑𝒏𝒂=𝟏 𝒑𝒂 [−𝒍𝒐𝒈𝟐 𝒑𝒂 ] = the average of [−𝒍𝒐𝒈𝟐 𝒑𝒂 ] [−𝒍𝒐𝒈𝟐 𝒑𝒂 ] = 𝓲𝒂 the Information of the Event Ξα Entropy as Average Information Εντροπια ως μεση Πληροφορια Πληροφορια Γεγονοτος Ξ ∈ 𝓑[Y] Y o Δειγματοχωρος, τα Δυνατα Αποτελεσματα ℬ = ℬ[Y] μια σ-Αλγεβρα συλλογη υποσυνολων του Υ που αποτελουν τα Μετρησιμα Συνολα, Ενδεχομενα, Γεγονοτα p κατανομη Πιθανοτητος στα Μετρησιμα Υποσυνολα Η p προκυπτει απο Στατιστικη Εκτιμηση των Παρατηρησεων ειτε απο Θεωρητικη Υποθεση H Πληροφορια του Γεγονοτος / Μηνυματος Ξ, για καθε μετρησιμο συνολο Ξ ∈ ℬ ειναι μια εκτιμηση της Αβεβαιοτητας που αιρεται μετα την προσληψη του μηνυματος / παρατηρησης του Ξ 𝒾[Ξ] εξαρταται απο τον αριθμο των δυνατοτητων που περιοριζονται μετα την προσληψη του μηνυματος/παρατηρησης του Ξ 𝒾[Ξ] εξαρταται απο τον αριθμο των δυνατων περιπτωσεων που αντιστοιχουν στο μηνυμα / παρατηρηση του Ξ Information Axioms Requirements for the Information Function of Events 𝒾 is a real (set) function of the Events: 𝓲 : 𝔖 ⟶ ℝ: Ξ ⟼ 𝒾[Ξ] : (1) (2) (3) 𝒾[Ξ] = 0, εαν p[Ξ] =1, για καθε Ξ ∈ ℬ 𝒾[Ξ] ≥ 𝒾[Η], εαν p[Ξ] ≤ p[Η] , για καθε Ξ, Η ∈ ℬ 𝒾[Ξ∩H] = 𝒾[Ξ] + 𝒾[Η] , εαν Ξ, Η independent: p[Ξ∩H] = p[Ξ] p[Η] Θεωρημα (4) (5) 𝒾[Ξ] ≥ 0 , για καθε Ξ ∈ 𝔖[Y] 𝒾[Ν] = +∞ , εαν p[Ν] = 0 , Ν ∈ ℬ [Y] Proof Staightforward from (1), (2) (4) 𝒾[Ξ] ≥ 𝒾[Y]=0 , για καθε Ξ ∈ ℬ (5) εαν p[Ν] = 0 , Ν ∈ ℬ, τοτε 𝒾[Ν] ≥ 𝒾[Ξ], για καθε Ξ ∈ 𝔖[Y] με p[Ξ] > 0 Συνεπως πρεπει: 𝒾[Ν] = +∞ , εαν p[Ν] = 0 , Ν ∈ 𝔖[Y] Απαιτησεις για την Συναρτηση Πληροφοριας των Γεγονοτων ως συναρτηση της Πιθανοτητος p ∈ [0,1] (1) 𝒾[1] = 0 (2) 𝒾[p1] ≥ 𝒾[p2], εαν p1 ≤ p2 (3) 𝒾[p] ≥ 0 , για καθε p (4) 𝒾[0] = +∞ (5) 𝒾[p1 p2] = 𝒾[p1] + 𝒾[p2] Η (Λογαριθμικη) Συναρτησιακη Εξισωση Cauchy Θεωρημα Για συνεχεις συναρτησεις 𝒾[p] η Λυση είναι η Λογαριθμικη Συναρτηση: 𝒾[p]=−logbp, b>0, b≠1 Αποδ. Ασκηση 0.1 Ορισμος Shannon για την 𝒾[Ξ] 𝒾[Ξ] ο ελαχιστος αριθμος των ανεξαρτητων ισοπιθανων Δυαδικων (ΝΑΙ/ΟΧΙ) αποφασεων που απαιτουνται για να πληροφορηθει (πιστοποιησει) καποιος, οτι το γεγονος Ξ πραγματοποιηθηκε, χωρις αλλη εκ των προτερων (a priori) πληροφορια p[Ξ] = 1 𝒾[Ξ] � � 2 ⟺ 1 p[Ξ] = 2𝒾[Ξ] ⟺ 𝒾[Ξ] = −log2 p[Ξ] = −ld p[Ξ] b=2 log2p = the minimal number of independent equiprobable (YES/NO) - Decisions necessary to verify the event with probability p The 20 Questions Game Del Lungo A. Louchard G.ea 2005 , The Guessing Secrets Ρroblem: a Ρrobabilistic Αpproach, Journal of Algorithms 55, 142–176 ΠΑΡAΔΕΙΓΜΑ: Ξ = επιλεγω ενα απο n συμβολα, 1) παιζω Κορωνα/Γραμματα n=2 Koρωνα-Γραμματα 1 δυαδικη ισοπιθανη αποφαση 1 p[K]= 2 1 1 =� � 2 ⟹ 𝒾[K]=1bit 1 𝒾[Κορωνα] = −log2 = 1 2 2) Τραβαω ενα χαρτι απο την τραπουλα. Αποτελεσμα: (Κουπα), (Ασσος), (Ασσος Κουπα) 1 𝒾[Κουπα] = −log2 p[Κουπα] = −log2 = 2 𝒾[Ασσος] = −log2 p[Ασσος] = −log2 4 1 13 = 3.70 𝒾[Ασσος Κουπα] = −log2 p[Ασσος Κουπα] = −log2 1 4∙13 = 5.70 𝒾[Ασσος Κουπα] = 𝒾[Κουπα] + 𝒾[Ασσος] = 5.70, διοτι ειναι ανεξαρτητα Μπορω παντα να συζητω με δυαδικες Αποφασεις? ΝΑΙ Eαν p[Ξ] 1 ν1 1 ν2 =� � � � α β Τοτε p[Ξ] … 1 ν1 ldα 1 ν2 ldβ =� � � � … 2 2 Υπομν. α=2ldα = 1 ν1 ldα+ν2 ldβ+⋯ � � 2 ΛΗΜΜΑ: Computation of Dyadic logarithms ldx = log 2 x = ldx = log 2 x = log10 x log10 2 log𝑒 x log𝑒 2 = = 𝑙𝑔𝑥 𝑙𝑔2 𝑙𝑛𝑥 𝑙𝑛2 = = 𝑙𝑔𝑥 0.30102995 𝑙𝑛𝑥 0.69314718 ΛΗΜΜΑ: Change logarithm basis Formula log β x = log𝛼 x log𝛼 β , x, α, β > 0 , α≠1, β ≠1 b=2 Shannon Information units are bits (from ’binary’) b=3 units are trits (from ’trinary’) b=e units are nats (from ’natural logarithm’) ln(x) = loge(x) b=10 units are Hartleys, or bans Πληροφορια Moναδες Μετρησης 1Byte=1B=23 bits=8bits 1KB=210 B=1024B=8142 bits 1MB=210 KB=1024KB=1048576B=8337408 bits 1GB=210 MB=1024MB=1048576KB=1073741824B ≅ 1.1x109B ≅ 8.8 x109bits 1TB=210 GB=1024GB=1048576MB=1073741824KB ≅ 1.1x1012B ≅ 8.8 x1012bits Information Amounts 1 Text Character TV Image 1 chromosome DΝΑ as 4 Symbol Message Information in Bacteria Memory Cells, E. Coli (2011) Cells in the Human Body Brain Neurons Brain Synaptic Links Brain Memory Cyberspace 2007: Cyberspace 2012: Cyberspace Indexed Google 0.004% Atoms in 12gr C Universe Chess GO Eternity II Borges Βabel Library 1 Byte = 8 bits ld10414720bits =1.4 x 106 bits (576 lines , 720 columns) = 414720 px and 10 luminosity scales ld4100000bits = 2 x 105 bits 900000 GB > 1014 ~1011 ~1015 2.5 PetaBytes = 1048576 GB ≈ 8.8 x 1018 bits ≈ 300 years of TV and Audio recording ! 281 billion GB=281x109GB≅2.5x1021bits 3.6 x 1022 bits 1018 bits 2007 1.4 x 1018 bits 2012 6,022 x 1023 10100 bits 1043 bits 10200 bits ? 10550 bits 2.6 x101834103 Bytes How much the Information of the Internet Weighs? As 3 Strawberries! http://socialtimes.com/how-much-does-the-internet-weigh-video_b82851 Αποθηκευση ως αλλαγη στις Ενεργειακες σταθμες των ηλεκτρονιων των Ατομων Ορισμος Εντροπια (Shannon) της Mεταβλητης Α Η Αναμενομενη (Μεση) Πληροφορια απο την Παρατηρηση της Mεταβλητης Α Εστω {α1, α2,…, αn} το φασμα τιμων της ΤΜ Α Ξ1 το Γεγονος Α= α1 με πιθανοτητα p[Ξ1] = p1 Ξ2 το Γεγονος Α= α2 με πιθανοτητα p[Ξ2] = p2 … Ξn το Γεγονος Α= αn με πιθανοτητα p[Ξn] = pn ξ = {Ξν, ν=1,2,…,n}, n∈ℕ η Διαμεριση που οριζει η ΤΜ A A(y)=∑Ν 𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦) Καθε κελλι Ξν, ν=1,2,…,n , αντιστοιχει στο συμβολο αν, ν=1,2,…,n που χρησιμοποιειται για την συνταξη μηνυματων Η Πιθανοτητα p προκυπτει απο Στατιστικη Εκτιμηση ειτε απο Θεωρητικη Υποθεση Εντροπια (Shannon) της Μεταβλητης Α ως προς την κατανομη p ℐ= ℐ[Α,p] = − ∑nν=1 p(𝛢 = αν )ld𝑝[𝛢 = αν ] = − ∑nν=1 pν ldpν Εντροπια (Shannon) της Διαμερισης ξ ως προς την κατανομη p ℐ= ℐ[ξ,p] = − ∑nν=1 p(Ξν )ld𝑝[Ξν ] = − ∑nν=1 pν ldpν ΣΧΟΛΙΑ 1) When Shannon realized the importance of the expression ℐ = − ∑a pa ln pa , he consulted John von Neumann about a suitable name for it. Von Neumann's response (reported by Myron Tribus) was as follows: “You should call it “Entropy” and for two reasons: first, the function is already in use in thermodynamics under that name; second, and more importantly, most people don't know what entropy really is, and if you use the word 'entropy' in an argument, you will win every time!” 2) Η Εντροπια δεν εξαρταται από τις τιμες της μεταβλητης Οι Μεταβλητες της μορφης A(y)=∑Ν 𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦) εχουν την αυτή Εντροπια Η Εντροπια ειναι ιδιοτητα της κλασσης των Μεταβλητων A(y)=∑Ν 𝜈=1 𝛼𝜈 1𝛯𝜈 (𝑦) που ειναι μετρησιμες ως προς τη διαμεριση ξ = {Ξν} δηλαδη ανηκουν στoν υποχωρο < 1𝛯1 , … , 1𝛯𝛮 > 3) Η Εντροπια ειναι ενας θετικος αριθμος που εκχωρειται σε καθε διαμεριση ξ = {Ξ1, Ξ2 ,..., ΞΝ} του Y και σε καθε κατανομη Πιθανοτητος p του Y 4) Η Εντροπια μπορει να θεωρηθει ως ιδιοτητα της κατανομης πιθανοτητας p1 ,..., pn δηλαδη ως απεικονιση ℐ: 𝒫n →[0,+∞) : (p1 ,..., pn) ↦ ℐ(p1 ,..., pn) = − ∑𝑛ν=1 𝑝𝜈 ld𝑝𝜈 𝒫n = η Αλγεβρα των κατανομων πιθανοτητος {p1 ,..., pΝ} στο Συνολο {1,2,...,n} 5) Η Εντροπια γενικευεται για απειρες (Μετρησιμες) διαμερισεις Rohlin V. 1967, Lectures on the Entropy Theory of Measure Preserving Transformations, Russ. Math. Surv. 22, No 5,1-52 Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore 6) Για Συνεχεις Μεταβλητες (Kατανομες Πιθανοτητας) χρησιμοποιειται η Εντροπια Gibbs 𝓘[A] = 𝓘G [A] =−∫dα ρ(α) lnρ(α) ρ(α) η κατανομη πιθανοτητος της Μεταβλητης Α Παραδειγμα: Ριψη 2 Ζαριων Δειγματοχωρος Υ={y|y= (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) } Tυχαια Mεταβλητη: Z(y) = y, το Αποτελεσμα της ριψης των 2 ζαριων 𝟑𝟔 𝟏 𝟏 𝓘[𝜡] = − � � 𝒍𝒅 � = 𝒍𝒅𝟑𝟔 ≅ 𝟓. 𝟏𝟕 𝟑𝟔 𝟑𝟔 𝝂=𝟏 Tυχαια Mεταβλητη: Α(y) = το Αθροισμα των Ενδειξεων των 2 Ζαριων Α(y)=2∙1𝛯2 (y)+ 3∙1𝛯3 (y)+ 4∙1𝛯4 (y)+ 5∙1𝛯5 (y)+ 6∙1𝛯6 (y)+ 7∙1𝛯7 (y)+ + 8∙1𝛯8 (y)+ 9∙1𝛯9 (y)+ 10∙1𝛯10 (y)+ 11∙1𝛯11 (y)+ 12∙1𝛯12 (y) Η Διαμεριση της ΤΜ Α: ξ = { Ξ2 , Ξ3 , Ξ4 , Ξ5 , Ξ6 , Ξ7 , Ξ8 , Ξ9 , Ξ10 , Ξ11 , Ξ12 } Cell Ξ2 ={ (1,1)} Ξ3 ={ (1,2), (2,1)} Ξ4 ={ (2,2), (1,3), (3,1)} Ξ5 ={ (1,4), (2,3),(3,2), (4,1)} Ξ6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)} Ξ7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)} Ξ8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)} Ξ9 ={ (3,6), (4,5),(5,4), (6,3)} Ξ10 ={ (4,6), (5,5),(6,4)} Ξ11 ={ (5,6), (6,5)} Ξ12 ={ (6,6)} Probability 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 𝓘[𝑨] = − �𝟐 1 36 𝒍𝒅 36 𝓘[𝑨] = � 𝓘[𝑨] = � 1 1 18 1 18 +𝟐 2 36 𝒍𝒅 𝒍𝒅𝟑𝟔 + 𝟓. 𝟏𝟕 + 1 9 1 9 2 36 +𝟐 𝒍𝒅𝟏𝟖 + 𝟒. 𝟏𝟕 + 3 36 1 6 1 6 𝒍𝒅 3 36 +𝟐 𝒍𝒅𝟏𝟐 + 𝟑. 𝟓𝟖 + 1 8 1 8 4 36 𝒍𝒅 𝒍𝒅𝟗 + 𝟑. 𝟏𝟕 + 4 36 5 18 5 18 +𝟐 𝒍𝒅 36 36 5 5 + 𝟐. 𝟖𝟓 + 𝒍𝒅 1 6 1 6 5 36 + 𝒍𝒅𝟔� 6 36 𝟐. 𝟓𝟖� 𝒍𝒅 6 � 36 𝓘[𝑨] = (𝟎. 𝟐𝟖𝟕 + 𝟎. 𝟒𝟔𝟑 + 𝟎. 𝟓𝟗𝟕 + 𝟎. 𝟒𝟔𝟐 + 𝟎. 𝟕𝟗𝟐 + 𝟎. 𝟒𝟑𝟎) 𝓘[𝑨] = 𝟑. 𝟎𝟑𝟏 Tυχαια Mεταβλητη: Β(y) = η απολυτη τιμη της Διαφορας των ενδειξεων των 2 Ζαριων Β(y)=0∙𝟏𝜢𝟎 (y)+ 1∙𝟏𝜢𝟏 (y) )+ 2∙𝟏𝜢𝟐 (y) + 3∙𝟏𝜢𝟑 (y)+ 4∙𝟏𝜢𝟒 (y)+ 5∙𝟏𝜢𝟓 (y) Η Διαμεριση της ΤΜ Β: η = { Η0 , Η1 , Η2 , Η3 , Η4 , Η5 } Cell Η0 ={ (1,1), (2,2),(3,3), (4,4), (5,5),(6,6)} Η1 ={ (1,2), (2,3), (3,4), (4,5), (5,6), (6,5), (5,4), (4,3),(3,2), (2,1)} Η2 ={ (1,3), (2,4), (3,5), (4,6), (6,4), (5,3),(4,2), (3,1)} Η3 ={ (1,4), (2,5), (3,6), (6,3), (5,2),(4,1)} Η4 ={ (1,5), (2,6), (6,2), (5,1)} Η5 ={ (1,6), (6,1)} Probability 6 36 10 36 8 36 6 36 4 36 2 36 𝓘[𝑩] = − �𝟐 6 36 𝒍𝒅 1 𝓘[𝑩] = � 1 𝓘[𝑩] = � 3 3 6 36 + 36 5 𝒍𝒅𝟔 + 𝟐. 𝟓𝟖 + 10 18 5 18 𝓘[𝑩] = (𝟎. 𝟖𝟔 𝒍𝒅 𝒍𝒅 10 36 36 10 + + 𝟏. 𝟖𝟓 + 8 36 2 9 2 9 𝒍𝒅 𝒍𝒅 𝟗 𝟐 8 36 + 𝟐. 𝟏𝟕 + + 1 9 1 9 4 36 𝒍𝒅 𝒍𝒅𝟗 + 4 36 1 18 𝟑. 𝟏𝟕 + + 2 36 𝒍𝒅 𝒍𝒅𝟏𝟖� 1 18 2 � 36 𝟒. 𝟏𝟕� + 𝟎. 𝟓𝟏 + 𝟎. 𝟒𝟖 + 𝟎. 𝟑𝟓 + 𝟎. 𝟐𝟑) 𝓘[𝑩] = 𝟐. 𝟒𝟑 𝓘[𝜠𝝂𝜹𝜺𝜾𝝃𝜼 𝜡𝜶𝝆𝜾𝝎𝝂] > 𝓘[𝑨𝜽𝝆𝝄𝜾𝝈𝝁𝜶 𝜡𝜶𝝆𝜾𝝎𝝂] > 𝓘[𝜟𝜾𝜶𝝋𝝄𝝆𝜶 𝜡𝜶𝝆𝜾𝝎𝝂] Θεωρημα. ΙΔΙΟΤΗΤΕΣ ΕΝΤΡΟΠΙΑΣ (E1) 0 ≤ ℐ[Α] ≤ ld n H Πληροφορια ειναι θετικος αριθμος μικροτερος η ισος απο την τιμη ld n Ορισμος ld n− ℐ(Α) Πλεονασμος Redundancy της ΤΜ A = ld n the relative difference between ℐ(Α) and its maximum possible value ldn 𝟏 (E2) ℐ(A)=ld n ⇔ pν=p[A=αν] = p[Ξν] = , ∀ ν=1,2,…,n 𝒏 Δηλαδη η ισοπιθανη διαμεριση εχει την μεγιστη Εντροπια απο ολες τις διαμερισεις n κελλιων η ισοπιθανη Μεταβλητη εχει την μεγιστη Εντροπια απο τις Μεταβλητες που παιρνουν n-τιμες η ομοιομορφη κατανομη εχει την μεγιστη Εντροπια απο τις διακριτες κατανομες n-τιμων (E3) ℐ(A) = 0 ⟺ A is Deterministic RV: A(y)=∑𝒗 𝒂𝒗 𝟏𝜩𝝂 (𝒚), with p(𝜩𝝂 ) = δνλ Η Παρατηρηση της Βεβαιας Μεταβλητης είναι η τιμη ακ με πιθανοτητα 1 ΣΧΟΛΙΟ Η Παρατηρηση της Ισοπιθανης Μεταβλητης παρεχει μεγιστη Πληροφορια Η Παρατηρηση της Βεβαιας Μεταβλητης δε παρεχει Πληροφορια Uniform RV are the most Random with maximum Entropy Deterministic RV have no Randomness and no Entropy Αποδειξη Τα (E1), (E2) αποδεικνυονται με 2 τροπους με βαση τις Ανισοτητες Jensen και Gibbs αντιστοιχα. ΛΗΜΜΑ: Ανισοτητα Jensen For any strictly Convex, Real function f , λν ≥0 , ∑𝑛𝜈=1 𝜆𝜈 = 1 : 𝑓 (∑n𝜈=1 λν yν ) ≤ ∑n𝜈=1 λν f(yν ) 𝑓 (∑n𝜈=1 λν yν ) = ∑n𝜈=1 λν f(yν ) ⟺ y1 = y2 =…= yn Rudin W. 1970, Real and Complex Analysis. McGraw-Hill, London Αποδειξη (E1), (E2) με την Ανισοτητα Jensen H συναρτηση f(x)=xlnx, x>0 είναι αυστηρα κυρτη, διοτι 𝑓 ′′ ( 𝑥) = 1 𝑥 >0 1 Ανισοτητα Jensen για yν = pν , λν =𝑛 1 1 �∑n𝜈=1 pν � ln �∑n𝜈=1 pν � ≤ ∑n𝜈=1 𝑛 1 𝑛 1 �∑n𝜈=1 pν � ln �∑n𝜈=1 pν � = ∑n𝜈=1 𝑛 1 1 � � ln � � ≤ ∑n𝜈=1 𝑛 1 𝑛 1 � � ln � � = ∑n𝜈=1 𝑛 𝑛 1 1 𝑛 1 𝑛 𝑛 𝑛 1 𝑛 pν lnpν pν lnpν ⟺ p1 = p2 =…= pn pν lnpν pν lnpν ⟺ p1 = p2 =…= pn ln � � ≤ ∑n𝜈=1 pν lnpν 𝑛 1 1 ln � � = ∑n𝜈=1 pν lnpν ⟺ p1 = p2 =…= pn 𝑛 ΛΗΜΜΑ: Ανισοτητα Gibbs ∀ pν , qν ≥0, ∑n𝜈=1 pν = 1 , ∑n𝜈=1 qν = 1 : ∑𝒏𝝂=𝟏 𝐩𝛎 𝐥𝐧 ∑𝐧𝛎=𝟏 𝐩𝛎 𝐥𝐧 𝐩𝛎 𝐪𝛎 𝐩𝛎 𝐪𝛎 ≥0 = 𝟎 ⟺ pν = qν Αποδειξη Ανισοτητας Gibbs από την Λογαριθμικη Ανισοτητα και 1 1− ≤ lnx ≤ x−1 x lnx = x−1 ⟺ x=1 Ειναι: −lnx ≥ 1−x −lnx = 1−x ⟺ x=1 q q Συνεπως: ∑𝑛𝜈=1 pν ln pqν = ∑n𝜈=1 pν �−ln �pν�� ≥ ∑n𝜈=1 pν �1 − pν� = ∑n𝜈=1 pν − ∑n𝜈=1 qν = 0 ν qν ν qν ∑n𝜈=1 pν �−ln � �� = ∑n𝜈=1 pν �1 − � �� ⟺ pν pν qν pν ν =1 Αποδειξη Ανισοτητας Gibbs από την Ανισοτητα Jensen p Η Ανισοτητα Jensen για λν = qν , yν = 𝑞ν : ν �∑n𝜈=1 qν p qν pν p � ln �∑n𝜈=1 qν ν � qν qν p qν ≤ ∑n𝜈=1 qν �∑n𝜈=1 qν ν� ln �∑n𝜈=1 qν ν � ≤ ∑n𝜈=1 qν pν qν p ∑n𝜈=1 pν ln ν qν 0 ≤ ∑n𝜈=1 pν ln Πρεπει pν qν 0= ⟺ q1 𝑝1 = q2 𝑝2 pν pν ln qν qν =…= qn 𝑝n p = 1, ν=1,2,…n, για να είναι: 0 = ∑n𝜈=1 pν ln qν ν pν pν ln qν qν ⟺ q1 𝑝1 = q2 𝑝2 =…= qn 𝑝n Αποδειξη (E1), (E2) με την Ανισοτητα Gibbs Η διαφορα ldn − ℐ[ξ] γραφεται: ldn − ℐ[ξ] = ldn – (− ∑n𝜈=1 pν ldpν ) =(∑n𝜈=1 pν )ldn + ∑n𝜈=1 pν ldpν =∑n𝜈=1 pν ld(pν n) = ∑n𝜈=1 pν ld pν qν , με qν = 1 n Το αποδεικτεο προκυπτει από την Ανισοτητα Gibbs και την σχεση: lnx=ln2 ldx Ονομασια Ορων της Ανισοτητας Gibbs ∑n𝜈=1 pν ld pν qν = ℐ [p: q] the Kullback – Leibler Entropy of p with respect to q − ∑n𝜈=1 pν ldqν = ℐC [p: q] the Cross Entropy of p with respect to q Αποδειξη (Ε3) A deterministic RV ⟹ ℐ(A)= ∑𝒗 𝒑𝒗 𝑙𝑑𝒑𝒗 = ∑𝒗 𝜹𝒗𝝀 𝑙𝑑𝜹𝒗𝝀 = 𝟎 Conversely ℐ(A) = 0 και A(y) non-deterministic ⟺ p(𝛯𝜈 ) ≠ δνλ ⟹ ∃ value αk on some cell Ξk , with 1> pk >0 ⟹ ℐ(A)> − pk ldpk ΑΤΟΠΟΝ (E4) ℐ(ξ) ≤ ℐ(η) , εαν ξ < η ξ<η⟺καθε κελλι Ηλ της η περιεχεται σε καποιο κελλι Ξκ της ξ Δηλαδη: Λεπτοτερες Διαμερισεις εχουν μεγαλυτερη Πληροφορια TΜ που λαμβανουν περισσοτερες τιμες περιεχουν περισσοτερη Πληροφορια διοτι η μετρηση τους παρεχει περισσοτερη Πληροφορια Μετρησεις μεγαλυτερης ακριβειας παρεχουν περισσοτερη Πληροφορια Proof Eστω ξ ≤ η Ηνκ , ν=1,2,… nk τα κελια της η που εμπεριεχονται στο κελι Ξκ της ξ 𝒏𝒌 𝜢𝝂𝜿 = 𝜩𝜿 Ηνκ ⊆ Ξκ και ⋃𝝂=𝟏 ⟹ 0 < ρ(Ηνκ ) ≤ ρ(Ξκ) < 1 ⟹ −log2 ρ(Ηνκ ) ≥ −log2ρ(Ξκ) >0 , διοτι −logaρ2 < −logaρ1 , αν 0< ρ1 < ρ2 < 1, a>1 ⟹ − ρ(Ηνκ ) log2 ρ(Ηκν ) ≥ − ρ(Ηνκ ) log2ρ(Ξκ) >0 𝒏 𝒌 ⟹ −∑𝜈𝜅 𝛒(Ηνκ ) l𝑑 𝛒(Ηνκ ) ≥ −∑𝜅𝜈 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ ) = ∑𝜅 ∑𝜈=1 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ ) ⟹ ℐ(η) ≥ − ∑𝜅 𝛒(Ξκ ) l𝑑 𝛒(Ξκ ) = ℐ(ξ) οεδ. (E5) Πορισμα της (Ε4) ℐ(φ(Β)) ≤ ℐ(Β) Proof Από την ιδιοτητα ξ ≤ η ⟺ A = φ(B) , φ : Σ� ⟶ 𝚺 οπου: ξ, η οι διαμερισεις των ΤΜ Α, Β (Ε6) Ιf ξ ≤ η and ℐ(ξ) = ℐ(η) , then ξ = η Proof ξ ≤ η και ℐ(ξ) = ℐ(η) ⟹ −∑𝜈𝜅 𝛒(Ηνκ ) l𝑑 𝛒(Ηνκ ) ≥ −∑𝜅𝜈 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ ) ⟹ ∑𝜈𝜅 𝛒(Ηνκ ) l𝑑 𝛒(Ηνκ ) l𝑑 𝛒(Ξκ ) =0 ⟹ ρ(Ηνκ ) = ρ(Ξκ) , από την Ανισοτητα Gibbs 𝑛𝑘 Είναι ∑𝜈=1 𝜌(𝛨𝜈𝜅 ) = 𝜌(𝛯𝜅 ) , διοτι ⟹ nκρ(Ξκ ) = ρ(Ξκ) ⟹ nκ = 1 𝑛 𝑘 𝛨𝜈𝜅 = 𝛯𝜅 ⋃𝜈=1 Δηλαδη οι διαμερισεις η, ξ εχουν τον αυτό αριθμο κελιων και την αυτή κατανομη πιθανοτητας (E7) The entropy of a partition does not depend on the order in which the elements of the partition are numbered. (E8) The entropy of a partition into n cells is a continuous function of the probabilities of these sets. (E9) Adding or removing events with probability zero does not contribute to the entropy: ℐ(p1 ,..., pn)= ℐ(p1 ,..., pn, pn+1, pn+2 , pn+k) , pn+1= pn+2 =…=pn+k = 0 Εντροπια Εφαρμογες Information, Variance, Uncertainty Τhe Entropy of a RV estimates the uncertainty about the outcome of the observation of the RV, with respect to some probability distribution. This uncertainty arises because we cannot predict exactly what the actual outcome of the Observation will be. The probability distribution is our estimation or Hypothesis about the state of the system and the means for prediction There is no assumption about the existence of the value of the RV before Observation But the statement: Τhe Entropy of a RV estimates the uncertainty about the value of the RV A. Implicitly assumes that the value of the RV A exists but we do not know it Information is a Variance Index for Qualitative Variables Variance estimates the uncertainty of the outcome of a Numerical RV, taking into account the distance of the outcome values from the mean value. Information as Estimation of Disorder, Surprise, Diversity McDonald G. 2003, Biogeography: Space, Time and Life, Wiley, New York 2 Καλπες με Λευκους,Μαυρους, Κοκκινους βωλους [Y 51] Η Καλπη Α περιεχει 10 λευκους, 5 μαυρους, 5 κοκκινους Βωλους (20) Η Καλπη Β περιεχει 8 λευκους, 8 μαυρους, 4 κοκκινους Βωλους (20) Επιλεγω (τυχαια) ενα Βωλο απο καθε Καλπη Ποια Επιλογη ειναι πιο Bεβαια για να στοιχηματισω? Πιο Βεβαια η Επιλογη Μικροτερης Εντροπιας 1 1 1 1 ℐΑ = −pλ,Ald (pλ,A) –pμ,A ld (pμ,A)− pκ,A ld (pκ,A) = − 𝑙𝑑 − 𝑙𝑑 − 1 pλ,A= 2 1 pμ,A= 4 2 1 pκ,A= 4 2 2 2 2 2 4 1 4 1 4 1 4 1 1 1 1 𝑙𝑑 = ∙ 1 + ∙ 2 + ∙ 2 = 1.5 bits 4 2 1 4 4 ℐΒ= −pλ,Β ld(pλ,Β) –pμ,Β ld(pμ,Β)− pκ,Β ld(pκ,Β)= − 5 𝑙𝑑 5− 5 𝑙𝑑 5 − 5 𝑙𝑑 5 ≅ 5 ∙ 1,32 + 5 ∙ 2,32 ≅ 1.52 bits 2 pλ,A= 5 ℐΑ < ℐΒ 2 pμ,A= 5 1 pκ,A= 5 Απαντηστε με Θεωρια Πιθανοτητων Εργασια {1} Πως θα στοιχηματισω? Οdds = p 1−p The language of odds for intuitively estimated risks is found in the 16th century, before the invention of mathematical probability. Shakespeare 1560, Henry IV, Part II, Act I scene 1 lines 181-2: “Knew that we ventured on such dangerous seas that if we wrought out life 'was ten to one” Στρατηγικη Στοιχηματων και θεωρια Πληροφοριας Kelly, J. L., Jr. 1956 , A New Interpretation of Information Rate, Bell System Technical Journal 35: 917–926 Εργασια {2} Δεσμευμενη πληροφορια Ερμηνεια Πληροφοριας μεσω Στοιχηματων Συστηματικη Θεωρια Στοιχηματων-Επενδυσεων Προβλεψη Καιρου Απο Παρατηρησεις σε ενα τοπο οι στατιστικες εκτιμησεις εδειξαν οτι την ημερα Α η πιθανοτητα βροχης ειναι 0.4 την ημερα Β η πιθανοτητα βροχης ειναι 0.65 και η πιθανοτητα χιονοπτωσης ειναι 0.15 Ποια Προβλεψη Καιρου ειναι πιο Βεβαιη? Σε Ποια Περιπτωση ειναι ασφαλεστερο να παρω ομπρελλα? [Y 52] Πιο Βεβαια η Προβλεψη Μικροτερης Πληροφοριας Προβλεψη Καιρου ℐΑ=−pA,βροχηldpA,βροχη−pA,oχι βροχηldpA,οχι βροχη≅−0.4ld0.4−0.6ld0.6 = 0.97bits ℐB=−pB,βροχη∙ldpB,βροχη−pB,χιονι ∙ldpΒ,χιονι−pB,οχι βροχη, οχι χιονι ∙ldpΒ,οχι βροχη, οχι χιονι = =−0.65∙ld0.65−0.15∙ld0.15−0.2∙ld0.2 ≅ 1,28bits ℐΑ < ℐB Ο καιρος πιο απροβλεπτος την ημερα Β Προβλεψη Ομπρελλας Ξ = Βροχη ειτε Χιονι pA,Ξ = pA,βροχη=0.4 pΒ,Ξ = pΒ,βροχη + pB,χιονι =0.8 Ξc = Oxι Βροχη και Οχι χιονι 𝑝A,𝛯𝑐 = pA,oxι βροχη=0.6 𝑝Β,𝛯𝑐 = 1−pΒ,βροχη −pB,χιονι =0.2 ℐΑ=−pA,ΞldpA,Ξ−𝑝A,𝛯𝑐 ld𝑝A,𝛯𝑐 =−0.4ld0.4−0.6ld0.6≅0.97bits ℐB=− pΒ,Ξ ld pΒ,Ξ −𝑝Β,𝛯𝑐 ld𝑝Β,𝛯𝑐 =−0.8∙ld0.8−0.2∙ld0.2 ≅ 0,72bits ℐΑ >ℐB Α: Η πιθανοτης να χρειαστω ομπρελλα ειναι 0.4 με Αβεβαιοτητα Προβλεψης 0.97 bits Β: Η πιθανοτης να χρειαστω ομπρελλα ειναι 0.6 με Αβεβαιοτητα Προβλεψης 0.72 bits Απαντηστε με Θεωρια Πιθανοτητων Εργασια {1} Oι κατοικοι της πολης Α ειναι παντα ειλικρινεις Oι κατοικοι της πολης Β ειναι παντα ψευτες Ενας ξενος που γνωριζει τα ηθη τους βρεθηκε σε μια απο τις 2 πολεις, αλλα δεν γνωριζει σε ποια απο τις 2 Ποσες ερωτησεις με απαντηση ΝΑΙ/ΟΧΙ πρεπει να ρωτησει εναν περαστικο κατ ελαχιστον για να μαθει σε ποια πολη ευρισκεται (Στην πολη μπορει να ευρισκονται δημοτες απο τις αλλες πολεις) [Υ 101] Π= η πολη στην οποια ευρισκεται ο ξενος , {Α ,Β} Δ= η πολη στην οποια ειναι δημοτης ο περαστικος , {Α , Β} Υπαρχουν 4 εκδοχες (Π,Δ)={(Α,Α),(Α,Β),(Β,Α),(Β,Β)} που μπορουμε να θεωρησουμε ισοπιθανες ελλειψει αλλων δεδομενων 1 1 ℐ(Π,Δ) = 4 �− ∙ 𝑙𝑑 � = ld4 = 2 Παραδειγμα 4 4 1) Η ερωτηση 1+1=2 ? αποφαινεται την Δ 2) Η ερωτηση Ειμαι στην πολη Α? αποφαινεται την Π Oι κατοικοι της πολης Α ειναι παντα ειλικρινεις Oι κατοικοι της πολης Β ειναι παντα ψευτες Oι κατοικοι της πολης Γ ειναι αλλοτε ειλικρινεις, αλλοτε ψευτες Ενας ξενος που γνωριζει τα ηθη τους βρεθηκε σε μια απο τις 3 πολεις, αλλα δεν γνωριζει σε ποια απο τις 3 Ποσες ερωτησεις με απαντηση ΝΑΙ/ΟΧΙ πρεπει να ρωτησει εναν περαστικο κατ ελαχιστον για να μαθει σε ποια πολη ευρισκεται (Στην πολη μπορει να ευρισκονται δημοτες απο τις αλλες πολεις) [Υa , 101] Π=η πολη στην οποια ευρισκεται ο ξενος , {Α ,Β,Γ} Δ= η πολη στην οποια ειναι δημοτης ο περαστικος , {Α , Β,Γ} Υπαρχουν 9 εκδοχες (Π,Δ)={(Α,Α),(Α,Β),(Α,Γ),(Β,Α), (Β,Β),(Β,Γ), (Γ,Α), (Γ,Β),(Γ,Γ)} που μπορουμε να θεωρησουμε ισοπιθανες ελλειψει αλλων δεδομενων 1 1 ℐ(Π,Δ) = 9 �− ∙ 𝑙𝑑 � = ld9 ≃ 3.17 ≥ ld8=3 9 3 ≤ ℐ(Π,Δ) ≤ 3+1 9 Πρεπει να κανει τουλαχιστον 4 Ερωτησεις Παραδειγμα 1) Ειμαι στην πολη Α ειτε στην πολη Β? 2) Ειμαι στην πολη Γ ? 3) Εισαι Δημοτης της πολης Γ ? 4) Ειμαι στην πολη Α? Εχω n Νομισματα του 1 ευρω. Τα n – 1 εχουν το αυτο βαρος, το 1 εχει διαφορετικο βαρος. Ποσες ζυγισεις με ζυγο 2 δισκων ειναι αναγκαιες για να βρω το καλπικο νομισμα και να εξακριβωσω εαν ειναι βαρυτερο η ελαφροτερο? [108] Εργασια {1} Eντροπια Κατανομων Πιθανοτητας ENTΡΟΠΙΑ Διακριτων Κατανομων N! Binomial RV: ρ(x) = ( ) px (1 − p)N−x , 0≤ p ≤1 x! N−x ! x=0,1,2,…,N , o αριθμος επιτυχιων σε N =1,2,3,… δοκιμες Bernoulli H Aπλουστερη περιπτωση: Μια Ριψη Νομισματος: N=1 ρ(1) = p , ρ(0) = 1 − p H Πληροφορια της Διωνυμικης ΤΜ = η Πληροφορια που παιρνω οταν μαθω το αποτελεσμα της ριψης ℐ = −𝑝𝑙𝑑𝑝 − (1 − 𝑝)𝑙𝑑(1 − 𝑝)= ℐ2(p) = Δυαδικη Εντροπια με πιθανοτητα p 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 0.8 0.9 p 1 Νομισμα Iσοπιθανο: p = , ℐ1/2 =1 2 Η Εντροπια λαμβανει την μεγιστη τιμη ℐ = ℐ1/2 =1 στην ομοιομορφη ΤΜ Eντροπια Διακριτων Kατανομων ΤΜ Τιμες x Κατανομη ρ(x) 𝟏 Oμοιομορφη 1,2,…, n 𝝆(𝒙) = 𝒏 Bernoulli 0,1 ρ0 = p, ρ1=(1−p) Binomial 0,1,2,…, n 𝐍! 𝝆(𝒙) = ( ) 𝐩𝐱 (𝟏 − 𝐩)𝐍−𝐱 Γεωμετρικη 0,1,2,… Poisson 0,1,2,… GaussKusmin 0,1,2,… 0≤ p ≤1 𝐱! 𝐍−𝐱 ! 𝝆(𝒙) = (1−p)px 𝐞−𝐱 𝝀𝒙 , λ ∈[0,+∞) 1 𝝆(𝒙) = 𝑙𝜊𝑔2 �1 − � (𝑥 + 1)2 𝝆(𝒙) = 𝐱! Εντροπια Shannon ℐ[ρ] ldn J2(ρ) = −𝒑𝒍𝒅𝒑 − (𝟏 − 𝒑)𝒍𝒅(𝟏 − 𝒑) 𝟏 𝟏−𝐩 J2(ρ) = − 𝒑 𝟏−𝒑 𝒍𝒅𝒑 − 𝒍𝒅(𝟏 − 𝒑) Knessl C. 1998, Integral Representations and Asymptotic Expansions for Shannon and Renyi Entropies, Appl. Math. Let. 11, 69-74 Εργασιες Υπολογιστε την Εντροπια της κατανομης Binomial {0.2} Υπολογιστε την Εντροπια της κατανομης Poisson {0.2} Υπολογιστε την Εντροπια της Γεωμετρικης κατανομης {0.2} Εντροπια κατανομης Gauss-Kuzmin 𝝆(𝒙) = 𝑙𝜊𝑔2 �1 − 1 (𝑥+1)2 Mean = +∞ Variance meaningless � , x=1,2,3,… 𝝆(𝒙) is the probability of the integer x to appear in any given place αν of the Continued Fraction expansion of the real number α α = [α1 α2 α3…] = 𝛼1 + 1 1 1 𝛼2 +𝛼 +⋯ 3 Entropy (GK)= 3,4325275 1) Αποδειξτε το Θεωρημα Continuous Fractions Εργασια {1} 2) Δειξτε τις ιδιοτητες της κατανομης Gauss-Kuzmin Εργασια {1} 3) Υπολογιστε την Εντροπια της κατανομης Gauss-Kuzmin Εργασια {1} N.Blachman 1984, "The continued fraction as an information source (Corresp.)", IEEE Transactions on Information Theory, 30, 671 – 674 P. Kornerup, D. Matula 1995, "LCF: A lexicographic binary representation of the rationals". Journal of Universal Computer Science 1: pp. 484–503. L. Vepstas 2008, Entropy of Continued Fractions (Gauss-Kuzmin Entropy) Eντροπια Διακριτων Kατανομων ΤΜ Τιμες x Κατανομη ρ(x) Maxwell – Boltzmann 1,2,… distributions 𝝆(𝒙) = Εντροπια Shannon ℐ[ρ] 𝑒 − 𝛤𝑥 𝛧𝑛 𝑛 𝛧𝑛 = � 𝑒 − 𝛤𝑥 𝝆(𝒙) = 𝑒 − 𝛤𝑥 𝛧𝑛 2 𝑥=1 𝑛 𝛧𝑛 = � 𝑒 − 𝛤𝑥 𝝆(𝒙) = 𝑥=1 𝑥 2 𝑒 − 𝛤𝑥 𝛧𝑛 2 2 𝑛 𝛧𝑛 = � 𝑥 2 𝑒 − 𝛤𝑥 𝑥=1 2 Υπολογιστε την Εντροπια των κατανομων Maxwell – Boltzmann {0.2 + 0.2 + 0.2} Eντροπια Συνεχων Kατανομων ΤΜ X Κατανομη ρ(x) Πραγματικη 𝟏 𝟏 (𝐱) 𝜷 − 𝜶 [𝛂,𝛃] 𝟏 −𝐱 𝒆 𝝉 𝟏[𝟎,+∞) (𝐱) 𝝉 Oμοιομορφη στο [α,β] Εκθετικη 𝟏 Laplacian Gauss Log Normal Rayleigh Cauchy Pareto ΜaxwellBoltzmann 𝟐𝝉 𝟏 𝝈√𝟐𝝅 𝟏 𝒆 𝐞 𝝈𝒙√𝟐𝝅 − Εντροπια Shannon ℐ(ρ)= −∫dx ρ(x) lnρ(x) ln(β−α) |𝐱| 𝝉 𝟏 𝐱−𝐦 𝟐 � 𝟐 𝝈 − � 𝐞 𝟏 𝐥𝐧𝐱−𝐦 𝟐 � 𝟐 𝝈 − � 𝟐 𝟏[𝟎,+∞) (𝐱) 𝟐𝜶𝒙 𝒆−𝜶𝒙 𝟏[𝟎,+∞) (𝐱) 𝟏 𝛂 𝝅 𝛂𝟐 + 𝒙𝟐 α𝒙−(𝜶+𝟏) 𝟏[𝟏,+∞) (𝐱) p(x) = 𝟏 𝜶𝟑 � 𝟐 𝝅 𝒙𝟐 − 𝒙𝟐 𝒆 𝟐𝒂𝟐 Εργασια {0.2} για κάθε Κατανομη (Πληρης Υπολογισμος). Το πολύ 5 Κατανομες Maximum Entropy Probability Distributions Definition Maximum Entropy Probability Distribution (within a class of Probabilities) a probability distribution whose entropy is not less than the Entropy of the other members of the class of distributions. Principle of Maximum Entropy Select the probability distributions with maximum Entropy among distributions in a certain class. Reasons: 1) Maximum Entropy Probability Distributions have minimal prior information (maximum Uncertainty), given certain constraints 2) Maximum Entropy Probability Distributions are Equilibrium Distributions for many physical systems 3) Initial Distributions evolve towards Maximum Entropy Probability Distributions for many physical systems. ⟺ Maximum Entropy Distributions are global asymptotic Attractors for many physical systems Significance: generalization of classical probability Principle of Indifference (equal probabilities) criterion for probability estimation Hypothesis for Testing Jaynes E. 2005, Probability Theory. The Logic of Science, Cambridge University Press What is the Probability Density associated with Maximum Entropy? The distributions which maximize entropy under certain natural conditions are simple. 3 basic cases: 1) The RV Χ is supported on the Real Interval [α,β] Uniform Distribution 2) The RV Χ takes only non-negative values and has finite mean value m Exponential Distribution 3) The RV Χ takes all real values and has finite variance σ2 Gaussian Distribution with zero mean and variance σ2 The RV Χ takes all real values and has fixed mean m and variance σ2 Gaussian Distribution with mean m and variance σ2 1) The RV Χ is supported on the Real Interval [α,β] 𝛃 ℐ(Χ)=− ∫𝛂 𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙) 𝛃 � 𝒅𝒙𝝆(𝒙) = 𝟏 𝛂 ρΜ(x)= 𝟏 𝜷−𝜶 Uniform Distribution ℐΜ=ln(β−α) the MAX Information Microcanonical Distribution SM Γενικευση: 𝓘Μ [A]= ρΜ(α)= 𝟏 𝐥𝐧𝓿 𝟏 𝓿 , 𝓿= ο ογκος του πεδιου μεταβολης της ΤΜ Α=(Α1, Α2, …, ΑΝ) 2) The RV Χ takes only non-negative values and has finite mean value m +∞ ℐ(Χ)=− ∫𝟎 +∞ 𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙) � 𝒅𝒙𝝆(𝒙) = 𝟏 𝟎 +∞ � 𝒅𝒙 𝒙 ∙ 𝝆(𝒙) = 𝒎 𝟎 ρΜ(x)= 𝟏 𝒎 𝐞 𝐱 𝐦 − Exponential Distribution ℐΜ=lnm+1 the MAX Information Canonical Distribution SM 3) The RV Χ takes all real values and has finite variance σ2 +∞ ℐ(Χ)=− ∫−∞ 𝒅𝒙𝝆(𝒙)𝒍𝒏𝝆(𝒙) +∞ � 𝒅𝒙𝝆(𝒙) = 𝟏 −∞ +∞ � 𝒅𝒙 𝒙𝟐 ∙ 𝝆(𝒙) = 𝝈𝟐 −∞ 𝟏 ρΜ(x)= ρ(x)= exp √𝟐𝝅𝝈 ℐΜ=ln√𝟐𝝅𝒆𝝈 �− 𝐱 𝝈√𝟐 𝟐 � Gaussian Distribution the MAX Information Grand Canonical Distribution SM 4) The RV Χ takes all real values and has fixed mean m and variance σ2 Entropy is maximised by the Gaussian Distribution Aποδ. 1) Με Gibbs inequality 2) Functions of Several Real Variables Μaxima with Constraints Langrange Multipliers Table of Maximum Entropy Distributions: Park S. Y., Bera A. K. 2009, Maximum entropy autoregressive conditional heteroskedasticity model, Journal of Econometrics 150, 219-230 Εργασια {0.25} για κάθε Αποδειξη Επιλεξτε το πολύ 4 Maximum Entropy Distributions Εντροπια Μοναδικοτης Ειναι ο Τυπος του Shannon Μοναδικος? Ποιες ιδιοτητες της απεικονισης ℐ: 𝒫F →[0,+∞) : (p1 ,..., pn) ↦ ℐ(p1 ,..., pn) oπου 𝒫F = η Γραμμικη Αλγεβρα των πεπερασμενων κατανομων πιθανοτητος {p1 ,..., pn} , n ∈ ℕ οδηγουν στον τυπο του Shannon? ℐ(p1 ,..., pn) = − ∑n ν=1 pν ldpν Θεωρημα Shannon 1949, Khintchine 1953 Εστω η Απεικονιση ℐ: ⋃n≥2 𝒫n → [0, +∞) ℐ(p1 ,..., pn) = −κ ∑𝑛 ν=1 𝑝𝜈 ld 𝑝𝜈 , κ>0 (SK1) ℐ Συνεχης ⇔ Ισχυουν οι (SK1) - (SK4) (SK2) ℐ(1/n, . . . ,1/n ) = max { ℐ(p1 ,..., pn) | (p1 ,..., pn)∈ 𝒫n }. (SK3) ℐ(p1 ,..., pn,0)= ℐ(p1 ,..., pn) , Ν=2,3,... , (p1 ,..., pΝ)∈ 𝒫N (SK4) ℐ(p11 ,..., pΝΜ)= ℐ(p1 ,..., pn)+ ∑nk=1 𝑝k ℐ[𝑝1|𝜅 , … . 𝑝𝑁|𝜅 ] κ=2,3,...n , λ=1,2,...,N (p1 ,..., pΝ)∈ 𝒫N pκλ= pκ pλ|κ ∑µλ=1 𝑝𝜆|𝜅 = 1 , 0 ≦ pλ|κ ≦1 The Shannon-Khintchine Axioms SK1-SK4 are modifications of Shannon's original axioms by Khinchin Αποδ Khinchin A. 1957, Mathematical Foundations of Information Theory, Dover, New York. Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore Εργασια {1} Θεωρημα Faddeev 1956 Εστω η Απεικονιση ℐ: ⋃n≥2 𝒫n → [0, +∞) ℐ(p1 ,..., pn) = −κ ∑𝑛 ν=1 𝑝𝜈 ld 𝑝𝜈 , κ>0 ⇔ Ισχυουν οι (F1) (F2) (F3) (F1) ℐ(p,1−p)=f(p), f:[0,1]→ℝ συνεχης και f(p)>0 , για p ∈[0,1] (F2) ℐ(p1 ,..., pΝ)= ℐ(pσ(1) ,..., pσ(n)) , για καθε μεταθεση σ των 1,...,n (F3) ℐ(p1 ,..., pn-1 , pn−q , q)= ℐ(p1 ,..., pn)+ pn ℐ� Αποδ pn −q q , � pn pn Faddeev A. 1956, On the notion of Entropy of a finite probability space. Uspekhi Mat. Nauk 11, 227-231 Tverberg Η. 1958, A new derivation of the information function. Math. Scand.6 ,297-298. Tverberg introduced a weaker condition than (F1). Kakihara Y. 1999, Abstract Methods in Information Theory, World Scientific, Singapore Εργασια {1} ΛΗΜΜΑ: Εrdos, Fadeev, Renyi Εστω φ: ℕ→ℝ : 1) φ(nm) = φ(n)+ φ(m) , m,n=1,2,… 2) limn→∞ [φ(n + 1) + φ(n)] = 0 Toτε: φ(n)=kln(n), k πραγματικη σταθερα Aποδ Rényi A. 1961, On Measures of Entropy and Information, Proc. 4th Berkeley Symposium on Mathematics, Statistics and Probability, University of California Press, p 547-561 Εργασια {0.5} Εντροπια και Πιθανοτητα Πιθανοθεωρητικη ερμηνεια της Πληροφοριας Πληροφοριακη ερμηνεια της Πιθανοτητας Εαν διαθετω μοντελο πιθανοτητος p, τοτε οριζω την Πληροφορια. Ισχυει το Αντιστροφο? Δηλαδη: Μπορω να ορισω Πληροφορια χωρις Πιθανοτητα και να προκυψει η Πιθανοτητα απο την Πληροφορια? ΝΑΙ! Urbanik K. 1973, On the Definition of Information, Rep. Math. Phys. 4, 289-301 Εργασια {2} “Information theory must precede probability theory, and not be based on it. By the very essence of this discipline, the foundations of information theory have a finite combinatorial character. The applications of probability theory can be put on a uniform basis. It is always a matter of consequences of hypotheses about the impossibility of reducing in one way or another the complexity of the description of the objects in question. Naturally, this approach to the matter does not prevent the development of probability theory as a branch of mathematics being a special case of general measure theory. The concepts of information theory as applied to infinite sequences give rise to very interesting investigations, which, without being indispensable as a basis of probability theory, can acquire a certain value in the investigation of the algorithmic side of mathematics as a whole.” Kolmogorov 1970 talk at Nice published in Kolmogorov A.N. 1983, Combinatorial Foundations of Information Theory and the Calculus of Probabilities, Russian Math. Surveys 38:4 , 29-40
© Copyright 2024 Paperzz