信息论
information theory
研究信息传输和信息处理系统中一般规律的新兴学科。核心问题是信息传输的有效性和可靠性以及两者间的关系。学科内容包括信息熵、信源编码、信道编码、信道容量、信息失真率理论、信号检测和估计等。
形成和发展 信息论形成一门独立的学科,公认是以1948年美国数学家C.E.香农发表著名论文《通信的数学理论》为标志的。香农用负熵作为信息的度量,成功地解决了信息传输的基本问题,为信息论奠定了基础。50年代,人们一方面在理论上阐明和推广香农的研究成果,把信息论置于严谨的数学基础上,另一方面发展了纠错码的理论和应用。60年代,在此基础上进一步发展,建立了信源编码的失真率理论,研究了最优信号集,发明了卷积码的序列译码和维特比译码技术。70年代,卫星通信和计算机技术的迅速发展给信息论以新的动力。各种多用户通信模型的信息传输理论获得了迅速发展。信息论已经发展成为一门拥有众多分支的新兴学科。
信息量 信息的度量是信息论研究的基本问题之一。对于应用范围如此广泛的信息提出一个统一的度量是困难的。美国数学家C.E.香农在1948年提出信息熵作为信息量的测度。根据人们的实践经验,一个事件给予人们的信息量多少,与这一事件发生的概率(可能性)大小有关。一个小概率事件的发生,如“唐山发生七级以上大地震”使人们感到意外,它给人们的信息量就很多。相反一个大概率事件的出现,如“12月15日北京未下雪”给人们的信息量就很少。因此,用I(A)=-logP(A)〔P(A)表示事件A发生的概率〕来度量事件A给出的信息量,称为事件A的自信息量。若一次试验有M个可能结果(事件),或一个信源可能产生M个消息(事件),它们出现的概率分别为p1,p2,…,pM ,则用来度量一次试验或一个消息所给出的平均信息量。当对数取 2为底时,单位为比特;当对数取e为底时,则单位为奈特。H的表达式与熵的表达式差一个负号,故称负熵或信息熵。
信息传输模型 信息传输系统主要由信源、信道和信宿组成,下图为信息传输系统的基本模型。信源是产生消息的系统。信宿是接受消息的系统,信道则是传输消息的通道。图中编码器、译码器的作用是把消息变换成便于传输的形式。
信源编码 信源是产生消息(包括消息序列)的源。消息通常是符号序列或时间函数。例如电报系统中的消息是由文字、符号、数字组成的报文(符号序列),称为离散消息。电话系统中的消息是语声波形(时间函数),称为连续消息。消息取值服从一定的统计规律。因此,信源的数学模型是一个在信源符号集中取值的随机变量序列或随机过程。信源编码器将消息变换为一个数字序列(通常为二进制数字序列)。在离散情形,若信源产生M个可能消息,它们出现的概率分别为p1,p2,…,pM,每个消息由N个信源符号组成,便可取信源编码与数字序列一一对应。第i个消息对应的数字序列长(数字个数)为li,li相等的称等长编码,否则称变长编码。定义为编码速率,它表征平均每个信源符号要用多少个数字来表示。若取信源译码器为信源编码器的逆变换器,则在无噪信道(信源编码器的输出即为信源译码器的输入)情况下,消息可以正确无误地传送。这时信源编码问题是要找出最小的速率R及其相应的编码。已经证明,对于相当广泛的信源类,当N可以任意大时这个最小极限速率称为信源的熵率,是信源的一个重要参数。对于固定的N,最优编码就是赫夫曼编码。在连续消息的情形,信息编码器不可能使消息与数字序列一一对应,因此译码也不是编码的逆变换。通常的方法是先对连续消息进行采样和量化,变为离散消息,再将离散消息变换为数字序列。信源译码器先将数字序列逆变换为离散消息,再用内插法求得连续消息。这样一来,即使在无噪信道的情况下,发送消息与接收消息之间也会产生误差,称为消息失真。可以用一个非负函数d(u,v)来度量消息u,v之间的失真大小。这时信源编码问题是在保证平均失真不超过给定允许极限D 的条件下找出最小速率R 及其相应编码。求解这一问题导致熵推广到失真率函数,信源编码的失真率理论因而得到发展。
信道编码 信道是传输信息的媒质或通道,如架空明线、同轴电缆、射频波束、光导纤维等。有时为研究方便将发送端和接收端的一部分如调制解调器也划归信道。信息论把信息传送过程中受各种干扰的影响都归入信道中考虑。根据干扰的统计特性,信道有多种模型。最简单的是离散无记忆恒参信道,它可以用信道入口符号集X、出口符号集Y和一组条件概率P(y|x)(x∈X,y∈Y)来描述。若信道输入信号x=(x1,x2,…,xN),则相应的输出(受扰)信号y=(y1,y2,…,yN)出现的概率为P(y|x)=信道编码器将数字序列每K个一组变换为字长N 的信号(码字),称为分组编码。若数字和信道符号都是二进制的(可用0,1表示),则R=K/N 定义为编码速率,它表明每个信道符号表示多少个数字。N-K 称为编码冗余度。信道编码(纠错编码)的基本思想就是增加冗余度以提高可靠性。更确切地说,信道译码器可以利用编码冗余度将受扰信号变换为正确的发送数字序列。重复编码乃一简例。信道编码器将输入数字重复三次, 如将01011变换为000111000111111。信道译码器可用门限译码,即先将输入译码器的信道符号每三个一组地相加,再将结果逐个与阈值 2比较,小于阈值2的译为0,否则译为1。这样若受扰信号010110100011011虽然错了 5个符号,但译码仍为01011与发送数字序列完全相同。信息论得出的重要结论是:对于一个有噪信道,只要在信道编码中引入足够而有限的冗余度,或等价地说编码速率足够小,就能通过信道渐近无误地传送消息。更确切地说,对充分长的数字序列,其接收错误概率可以任意小。信道编码问题是要找出使信道渐近无误地传输消息所能达到的最大编码速率R和相应的编码。已经证明,对于离散无记忆恒参信道,这个最大极限编码速率为,它是对X上一切概率分布 p取极大值。p为信道转移概率(条件概率),
称为交互信息;C 称为信道容量,是信道的重要参数。
信息传输定理 对图中的信息传输系统,若啛/TS<C/TC,其中啛为信源的熵率,C为信道容量,TS和TC分别为信源符号和信道符号的持续时间,则一定存在编码和译码使消息可通过信道渐近无误地传送。反之,若啛/TS>C/TC,则不存在这样的编码和译码。
信息论研究的主流始终是围绕这个基本定理展开的,只是信源和信道的模型更复杂而已。上述定理是实际存在的,但没有给出实现这一理想传输的具体编码方法。寻找实现这一理想传输的编码和译码方法则是编码理论研究的目标。虽然这一目标至今尚未达到,但信息论的研究成果对设计新通信系统的作用是人们所肯定的。
信息论的应用 信息论的意义和应用范围已超出通信的领域。自然界和社会中有许多现象和问题,如生物神经的感知系统、遗传信息的传递等,均与信息论中研究的信息传输和信息处理系统相类似。因此信息论的思想对许多学科如物理学、生物学、遗传学、控制论、计算机科学、数理统计学、语言学、心理学、教育学、经济管理、保密学研究等都有一定的影响和作用。另一方面,由于借助负熵定义的信息量只能反映符号出现的概率分布(不肯定性),不能反映信息的语义和语用层次。一篇重要的报告和一篇胡说乱道的文章可以具有同样的信息,这显然不符合常识。因此现阶段信息论的应用又有很大的局限性。把信息的度量推广到适合于语义信息和语用信息的情况,曾经做过许多尝试。但至今还没有显著的进展。
信息论
information theory
研究信息的基本性质和度量方法以及信息的获得、传输、存贮、处理和交换等一般规律的科学。信息论作为一门科学理论,发端于通信工程。它具有广义和狭义两个概念:狭义信息论是应用统计方法研究通讯系统中信息传递和信息处理的共同规律的科学,即研究概率性语法信息的科学;广义信息论是应用数学和其他有关科学方法研究一切现实系统中信息传递和处理、信息识别和利用的共同规律的科学,即研究语法信息、语义信息和语用信息的科学。人们对于信息的认识和利用,可以追溯到古代的通讯实践。中国古代的“烽燧相望”和古罗马地中海诸城市的“悬灯为号”,可以说是传递信息的原始方式。随着社会生产的发展,科学技术的进步,人们对传递信息的要求急剧增加。到了20世纪20年代,如何提高传递信息的能力和可靠性已成为普遍重视的课题。美国科学家N.奈奎斯特、德国K.屈普夫米勒、前苏联A.H.科尔莫戈罗夫和英国R.A.赛希尔等人,从不同角度研究信息,为建立信息论作出很大贡献 。1948年 , 美国数学家C.E.香农出版《通信的数学理论》,1949年发表《噪声中的通信》,从而奠定了信息论的基础。20世纪70年代以后,随着数学计算机的广泛应用和社会信息化的迅速发展,信息论正逐渐突破香农狭义信息论的范围,发展为一门不仅研究语法信息,而且研究语义信息和语用信息的科学。它的建立是人类认识的一个飞跃。世界上各种事物都是充满矛盾不断发展的,物质的运动主要是靠内部矛盾运动所产生的能量,而事物之间的普遍联系则靠的是信息。信息是关于事物的运动状态和规律,而信息论的产生与发展过程,就是立足于这个基本性质。信息论迅速渗透到各个不同学科领域,但还不够完善。为了适应科学技术发展的需要,迎接信息化社会的到来,一门新的科学正在迅速兴起,这就是广义信息论,或者叫做信息科学。信息科学是由信息论、控制论、计算机、人工智能和系统论等相互渗透、相互结合而形成的一门新兴综合性学科。信息科学登上现代科技舞台,与能量科学、材料科学鼎足而立 ,将为科学技术的发展作出贡献。
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源-信道隔离定理相互联系。
香农(Claude Shannon, 1916-2001)被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成果。在该文中,香农给出了信息熵(以下简称为“熵”)的定义:
这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽。熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。
信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。
互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:
其中 H(X, Y) 是联合熵(Joint Entropy),其定义为:
互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。
信息概念、信息定义
信息(台湾称作资讯或讯息)是一种消息,通常以文字或声音、图象的形式来表现,是数据按有意义的关联排列的结果。信息由意义和符号组成。
文献是信息的一种,即通常讲到的文献信息。
信息是事物属性标识的集合——信息的新定义DY,“属性+种差”的标准逻辑DY。
Deng's改造(创造)的新信息定义
逆Shannon信息定义:信息是确定性的增加;
Wiener信息定义的逆:信息就是信息,信息是物质、能量、信息的标示。
邓宇们提出的”信息”概念定义 “信息是事物及其属性标识的集合”的信息实质定义。
仙农信息定义逆:将着名的否定式的维纳和仙农的“信息定义”换成“肯定式”成为仙农(香农)信息定义逆1——仙农信息定义的逆定义1:
信息是确定性的增加。
或仙农信息逆定义2:
信息是确认肯定性(确定性)的东西。或
信息是肯定性的确认。
对应公式
Ir=-logPi+1 或
Ir‘=log((N-ni)/N)=log(nq/N)=logPq
即仙农信息,由形式上的负熵——不确定度,变换成形式上的正熵补——确定度。见原否定式的Shannon信息定义:信息是消除随机不定性的东西。公式
I=-logPi=-log((ni)/N) =-(logni-logN)=logN-log ni
=-log((N-nq)/N)=1-1- logPi=1-(1+ logPi)=(1- logPi) –1
维纳信息定义逆:信息是物质、能量、信息的logo(标示,表示、表号——表现符号、信号、标号,表征、标识)。或“信息是与物质、能量、信息及属性相伴随的标识(logo,标示)”;或“信息就是信息,是物质、能量、信息的标识(表征、……)”。
钟义信定义的小缩:信息是事物变化状态的方式。
[编辑]参考文献摘自《医学信息》2006,邓宇,信息定义的标准化 取自"http://wiki2.keyin.cn/index.php/%E4%BF%A1%E6%81%AF"
信息论被广泛应用在:
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、加密学、数据压缩等问题的应用数学学科。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源-信道隔离定理相互联系。
香农(Claude Shannon, 1916-2001)被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《通信的数学原理》作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成果。在该文中,香农给出了熵的定义:
H = - sum_i p_i log p_i
这一定义可以用来推算传递经二进制编码後的原信息所需的信道带宽。熵的概念量度的是消息中所含的信息量,而去除了消息中固有结构所决定的部分,比如,语言结构的冗馀性以及语言中字母、词的使用频度等统计特性。
信息论中熵的概念与物理学中的熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。
互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:
I(X, Y) = H(X) + H(Y) - H(X, Y)
其中 H(X, Y) 是共有熵(Joint Entropy),其定义为:
H(X, Y) = - sum_{x, y} p(x, y) log p(x, y)