簡介
1948年
香農在Bell System Technical Journal上發表了《A Mathematical Theory of Communication》。論文由香農和威沃共同署名。這篇奠基性的論文是建立在香農對通信的觀察上,即“通信的根本問題是報文的再生,在某一點與另外選擇的一點上報文應該精确地或者近似地重現”。這篇論文建立了信息論這一學科,給出了通信系統的線性示意模型,即信息源、發送者、信道、接收者、信息宿,這是一個新思想。此後,通信就考慮為把電磁波發送到信道中,通過發送1和0的比特流,人們可以傳輸圖像、文字、聲音等等。今天這已司空見慣,但在當時是相當新鮮的。他建立的信息理論框架和術語已經成為技術标準。他的理論在通信工程師中立即獲得成功,并刺激了今天信息時代所需要的技術發展。
名稱由來
信息論将信息的傳遞作為一種統計現象來考慮,給出了估算通信信道容量的方法。信息傳輸和信息壓縮是信息論研究中的兩大領域。這兩個方面又由信息傳輸定理、信源-信道隔離定理相互聯系。
這一定義可以用來推算傳遞經二進制編碼後的原信息所需的信道帶寬。熵度量的是消息中所含的信息量,其中去除了由消息的固有結構所決定的部分,比如,語言結構的冗餘性以及語言中字母、詞的使用頻度等統計特性。
信息論中熵的概念與物理學中的熱力學熵有着緊密的聯系。玻耳茲曼與吉布斯在統計物理學中對熵做了很多的工作。信息論中的熵也正是受之啟發。
互信息(Mutual Information)是另一有用的信息度量,它是指兩個事件集合之間的相關性。兩個事件X和Y的互信息定義為:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中H(X,Y)是聯合熵(Joint Entropy),其定義為:
H(X,Y)=-∑p(x,y)logp(x,y)
x,y
互信息與多元對數似然比檢驗以及皮爾森χ2校驗有着密切的聯系
背景信息
20世紀中葉,信息論、控制論、系統論等标新立異的新理論相繼問世,有力地“晃動”着傳統的科學框架。克勞德·香農是一位美國數學工程師,作為信息論的創始人,人們認為他是20世紀最偉大的科學家之一。
他在通信技術與工程方面的創造性工作,為計算機與遠程通信奠定了堅實的理論基礎。人們尊崇香農為信息論及數字通信時代的奠基之父。确實,他對人類的貢獻超過了一般的諾貝爾獲獎者。回顧20世紀的信息革命風暴,經他闡明的信息概念、連同“比特”這個單位已經深入人心,成為今天日常生活都離不開的詞彙。
主要内容
熵的概念
香農理論的重要特征是熵(entropy)的概念,他證明熵與信息内容的不确定程度有等價關系。熵曾經是波爾茲曼在熱力學第二定律引入的概念,我們可以把它理解為分子運動的混亂度。信息熵也有類似意義,例如在中文信息處理時,漢字的靜态平均信息熵比較大,中文是9.65比特,英文是4.03比特。這表明中文的複雜程度高于英文,反映了中文詞義豐富、行文簡練,但處理難度也大。信息熵大,意味着不确定性也大。因此我們應該深入研究,以尋求中文信息處理的深層突破。不能盲目認為漢字是世界上最優美的文字,從而引申出漢字最容易處理的錯誤結論。
衆所周知,質量、能量和信息量是三個非常重要的量。
人們很早就知道用秤或者天平計量物質的質量大小。然而,我們關于熱、燃料、功與能的計量問題,遲至19世紀中葉,随着熱功當量的明确和能量守恒定律的建立才逐漸清楚。能量一詞就是它們的總稱,而能量的計量則通過“卡、焦耳”等新單位的出現而得到解決。
然而,關于文字、數字、圖畫、聲音的知識已有幾千年曆史了。但是它們的總稱是什麼,它們如何統一地計量,直到19世紀末還沒有被正确地提出來,更談不上如何去解決了。20世紀初期,随着電報、電話、照片、電視、無線電、雷達等的發展,如何計量信号中信息量的問題被隐約地提上日程。
1928年哈特利(R.V. H. Harley)考慮到從D個彼此不同的符号中取出N個符号并且組成一個“詞”的問題。如果各個符号出現的概率相同,而且是完全随機選取的,就可以得到DN個不同的詞。從這些詞裡取了特定的一個就對應一個信息量I。哈特利建議用N log D這個量表示信息量,即I=NlogD。這裡的log表示以10為底的對數。後來,1949年控制論的創始人維納也研究了度量信息的問題,還把它引向熱力學第二定律。
但是就信息傳輸給出基本數學模型的核心人物還是香農。1948年香農長達數十頁的論文“通信的數學理論”成了信息論正式誕生的裡程碑。在他的通信數學模型中,清楚地提出信息的度量問題,他把哈特利的公式擴大到概率pi不同的情況,得到了著名的計算信息熵H的公式:H=∑-pi log pi
如果計算中的對數log是以2為底的,那麼計算出來的信息熵就以比特(bit)為單位。今天在電腦和通信中廣泛使用的字節(Byte)、KB、MB、GB等詞都是從比特演化而來。“比特”的出現标志着人類知道了如何計量信息量。香農的信息論為明确什麼是信息量概念作出決定性的貢獻。
事實上,香農最初的動機是把電話中的噪音除掉,他給出通信速率的上限,這個結論首先用在電話上,後來用到光纖,現在又用在無線通信上。我們今天能夠清晰地打越洋電話或衛星電話,都與通信信道質量的改善密切相關。
應用範圍
編碼學
密碼學與密碼分析學
數據傳輸
數據壓縮
檢測理論
估計理論
政治學(政治溝通)
信息論概述
信息論是一門用數理統計方法來研究信息的度量、傳遞和變換規律的科學。它主要是研究通訊和控制系統中普遍存在着信息傳遞的共同規律以及研究最佳解決信息的獲限、度量、變換、儲存和傳遞等問題的基礎理論。
科學意義
于是在20世紀中葉,人類終于對三個非常重要的概念:質量、能量、信息量都有了定量的計量辦法。我們應該牢記,為闡明質量概念做出偉大貢獻的是發現物體力學定律的牛頓(Sir Isaac Newton,1642-1727),為闡明能量概念作出偉大貢獻的是熱力學第一定律的發現者們:邁耳(Julius Robert von Mayer,1814-1878)、焦耳(James Prescott Joule,1818-1899)、赫爾姆霍茲(Hermann von Helmholtz,1821-1894)、開爾文(Lord Kelvin,1824-1907),而為闡明信息概念作出偉大貢獻的就是香農。
20世紀中期随着原子彈的出現,物理學成為最榮耀的科學學科。在随後的50年裡,晶體管、人造衛星、集成電路、電腦的飛躍發展無不與物理學知識的應用有關。但是我們也驚奇地發現這些新技術都是為提高信息的處理能力服務。光榮的物理學家們忙了半個世紀,終于發現自己僅是給信息科學當仆人。信息量能進入物理學嗎?但“信息不是物質”!在物理學的版圖中人們不知道把信息論放到哪裡合适。人類知識體現的這種新的混亂局面需要我們不斷地澄清。
後來,他在人工智能方面也做了許多工作。例如他設計了一個電子老鼠來解決迷宮問題。他還研究過四色問題。他設計了國際象棋程序,發表在1950年的論文《Programming a computer for playing chess》中。1956年在洛斯阿拉莫斯的MANIAC計算機上實現了一個國際象棋的下棋程序。這一年香農還發表論文說明通用圖靈機可以僅用兩個狀态構建。