数学之美概述

数学之美PDF csdn下载：http://download.csdn.net/detail/lch614730/7060933

这本书是吴军所写，是一个大牛，我也看了这本书，就顺手总结的一下，如果你是自然语言处理，机器学习，数据挖掘，大数据这一方向的建议把这本书好好看一下，会很有帮助的，这本书呢，讲的都是很通俗但是有是很热门的知识，没有具体的细节，是一个框架，相信会让你受益匪浅的。

第1章文字和语言 vs 数字和信息

我们先看看发展史吧！看看为什么语言和数学有关的前因后果！！

1. 文字

声音 —– 语言 —– 词汇 —- 多义词（歧义性）—– 文字

我们的祖先在初始交流的时候是含糊不清的声音，后来变成了语言，随着语言越来越丰富，越来越抽象出现了具体词汇，但是当单词数量达到5000个左右的时候，人们开始记不住了，达到了单词数量的瓶颈了。怎么解决呢?于是概念的第一次概括和归类开始了，就是一词多义，这样语言基本解决了单词多的缺点。这种聚类和今天机器学习的聚类有很大的相似性。但是一词多义带来的问题就是，处理文本时如何去除歧义性呢？这就要靠上下文也就是语境来处理了。随着后来语言的流传性不好，就出现了文字来保留信息，还有由于不同文明，会有不同语言，我们如何进行信息的翻译和破解呢？我们要记住一句很重要的话：不同的文字系统在记录信息上的能力是等价的。

比如罗塞塔石碑上用3中不同语言：埃及象形文字，埃及拼音文字和古希腊文。最后前人通过其中两种把另外一种语言的秘密给破解出来了，这个故事对于长期从事自然语言处理的学者来说有2点指导：

1. 信息的冗余是信息的安全保障：因为只要有一份完好保留下来，原有信息就不会丢失

2. 语言的数据语料：在双语和多语对照翻译的时候 ‘对照语料库’ 至关重要。

这也是今天又很多翻译软件和服务都叫做 ‘罗塞塔’的原因。

2. 数字

随着事物要求越来越精确，随着出现了记录数字的文字，由于我们经常以扳手值为例，这就是我们为什么使用十进制的原因，而玛雅文明采用的一个世纪为一个太阳纪 — 400年，这也是为什么人们把2012称为世界末日了，因为2012年正好是玛雅文明一个太阳纪的最后一天。后来呢也出现了对数字不同位数的表示，比如中国是用：个十百千万亿兆来表示，而罗马人用 I代表1，V代表5，X代表10，L代表50，C代表100，D代表500，M代表1000，这里引出了现在一个朴素的编码问题，而罗马的解码规则为：左加右减（小数字出现在大数字左边为减）。比如：IV表示 5 – 1 = 4，VII表示 5+2 = 7，而现在我们通用的则是阿拉伯数字了：0-9。

3. 文字和语言背后的数学

现在我们知道通常常用字短，笔画少，而生僻字长，这完全符合信息论中的最短编码原理。

最后呢，总结由于上述过程呢，一些自然语言的处理者就是一种惯性思维，语言的组成规则：主谓宾等等规则来处理。而其他人认为应根据统计模型来处理，就是到底自然语言的处理是语言对？还是语法对？

4. 总结（我们只是稍微提了一下，后面会细细讲解的！）

通信的原理和信息传播的模型：
信源编码和最短编码
解码的规则和语法
聚类
校验位
双语对照文本，语料库和机器翻译
多义性和利用上下文消除歧义性

数学之美概述

数学之美概述

Published by

风君子

数学之美 概述

Published by

风君子

数学之美概述