数学之美 概述
数学之美PDF csdn下载:http://download.csdn.net/detail/lch614730/7060933
这本书是吴军所写,是一个大牛,我也看了这本书,就顺手总结的一下,如果你是自然语言处理,机器学习,数据挖掘,大数据这一方向的建议把这本书好好看一下,会很有帮助的,这本书呢,讲的都是很通俗但是有是很热门的知识,没有具体的细节,是一个框架,相信会让你受益匪浅的。
第1章 文字和语言 vs 数字和信息
我们先看看发展史吧!看看为什么语言和数学有关的前因后果!!
1. 文 字
声音 —– 语言 —– 词汇 —- 多义词(歧义性)—– 文字
我们的祖先在初始交流的时候是含糊不清的声音,后来变成了语言,随着语言越来越丰富,越来越抽象出现了具体词汇,但是当单词数量达到5000个左右的时候,人们开始记不住了,达到了单词数量的瓶颈了。怎么解决呢?于是概念的第一次概括和归类开始了,就是一词多义,这样语言基本解决了单词多的缺点。这种聚类和今天机器学习的聚类有很大的相似性。但是一词多义带来的问题就是,处理文本时如何去除歧义性呢?这就要靠上下文也就是语境来处理了。随着后来语言的流传性不好,就出现了文字来保留信息,还有由于不同文明,会有不同语言,我们如何进行信息的翻译和破解呢?我们要记住一句很重要的话:不同的文字系统在记录信息上的能力是等价的。
比如罗塞塔石碑上 用3中不同语言:埃及象形文字,埃及拼音文字和古希腊文。最后前人通过其中两种把另外一种语言的秘密给破解出来了,这个故事对于长期从事自然语言处理的学者来说有2点指导:
1. 信息的冗余是信息的安全保障:因为只要有一份完好保留下来,原有信息就不会丢失
2. 语言的数据语料:在双语和多语对照翻译的时候 ‘对照语料库’ 至关重要。
这也是今天又很多翻译软件和服务都叫做 ‘罗塞塔’的原因。
2. 数 字
随着事物要求越来越精确,随着出现了记录数字的文字,由于我们经常以扳手值为例,这就是我们为什么使用十进制的原因,而玛雅文明采用的一个世纪为一个太阳纪 — 400年,这也是为什么人们把2012称为世界末日了,因为2012年正好是玛雅文明一个太阳纪的最后一天。后来呢也出现了对数字不同位数的表示,比如中国是用:个十百千万亿兆来表示,而罗马人 用 I代表1,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,这里引出了现在一个 朴素的编码问题,而罗马的解码规则为 :左加右减(小数字出现在大数字左边为减)。比如:IV表示 5 – 1 = 4,VII表示 5+2 = 7,而现在我们通用的则是阿拉伯数字了:0-9。
3. 文字和语言背后的数学
现在我们知道 通常常用字短,笔画少,而生僻字长,这完全符合信息论中的 最短编码原理。
最后呢,总结由于上述过程呢,一些自然语言的处理者就是一种惯性思维,语言的组成规则:主谓宾等等规则来处理。而其他人认为应根据 统计模型来处理,就是到底自然语言的处理 是 语言对?还是语法对?
4. 总结(我们只是稍微提了一下,后面会细细讲解的!)
- 通信的原理和信息传播的模型:
- 信源编码和最短编码
- 解码的规则和语法
- 聚类
- 校验位
- 双语对照文本,语料库和机器翻译
- 多义性和利用上下文消除歧义性