0%

智能时代-读书笔记

前言:之前读过吴军博士的浪潮之巅,让我对各大IT企业有了一个了解,这次又买了吴博士的智能时代,特此记录我的一些读书笔记. ps:由于笔者从本科到研究生都在数学系,所以习惯用从定义到例子这样的方式去理解一个概念,定义内容主要参考了维基百科.


数据-人类文明的基石

如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为智能革命的核心动力. 数据:

Data is a set of values of qualitative or quantitative variables.

值得注意的是数据虽然本身是客观存在的,但他的范畴是随着文明进程不断变化和扩大的;计算机出现以前,一般书籍上的文字不认为是数据,而在今天它确实很重要的数据形式,可以想象不久的将来数据的范围一定会进一步扩大.

信息:

Information is any entity or form that resolves uncertainty or provides the answer to a question of some kind.

通常我们的目标就是从数据中挖掘出有用的信息来为我们所用,但我们能拿到的数据往往是有用的数据和没用的数据(伪造数据)混在一起,这无疑会干扰我们获取有用的信息.

数学模型:

A mathematical model is a description of a system using mathematical concepts and language.A model may help to explain a system and to study the effects of different components, and to make predictions about behaviour.

很多时候,我们没法直接使用数据,但我们可以将相关的信息量化,然后通过数学模型,间接的得到想要的信息. 另外我们通常对数据有两个方面的要求,质和量,质表示得到数据必须具有一定的代表性,量则是数据量必须充足.

数据驱动:

The adjective data-driven means that progress in an activity is compelled by data.

数学模型的选择不是一件容易的事情,其中数据驱动方法是目前的主流,它的主要内容就是选择一个或简单或复杂的模型,然后用很多数据去拟合.比方说DNN的数学模型可以说非常简单了,但它往往都有很多层隐藏层,从这个层面讲这个模型可以说的上是复杂. 数据驱动方法最大优势在于他可以最大程度上得益于计算机技术的进步,尽管一开始数据量不够、计算力不够时会显得粗糙,随着时间的推移,数据驱动方法可以非常准确.相比之下非数据驱动方法的进步需要理论上的突破,因此改进周期长.


大数据与机器智能

在有大数据之前,计算机并不擅长解决需要人类智能的问题,但今天这些问题能够得以解决,其核心就是变智能问题为数据问题,由此开始了新一轮技术革命-智能革命. 机器智能又名人工智能:

In computer science AI research is defined as the study of "intelligent agents": any device that perceives its environment and takes actions that maximize its chance of successfully achieving its goals.

人工智能1.0:1956年夏天的Dartmouth workshop

大数据:

Big data is data sets that are so voluminous and complex that traditional data-processing application software are inadequate to deal with them.

大数据的三个特征:

  • Vast(2005是大数据的元年,第一次参加NIST评测的Google机器翻译团队以巨大优势取得第一,原因在于使用了万倍的数据量建立了六元模型而不是三元模型).
  • Variety(百度发布的中国十大吃货省市排行榜说明了正是大数据的多样性,我们才能从中获得更多有价值的结果)
  • Completeness(Nade Silver通过搜集社交网络上的相对反映真实想法的数据,对2012美国大选做出非常漂亮的预测)

思维的革命

数据所包含的信息能帮助我们消除不确定性,数据的相关性一定程度上能取代原来的因果关系. 上一章我们从技术层面分析了大数据的重要性,这一张我们将从方法论层面描述其重要性. 机械思维:

the universe is reducible to completely mechanical principles—that is, the motion and collision of matter.

机械思维的形成:

  • 欧几里得创立了基于公理化体系的几何学

  • 托勒密总结出:通过观察获得数学模型的雏形,然后利用数据来细化模型

  • 笛卡尔总结出:大胆假设,小心求证

  • 牛顿不仅把欧几里得通过逻辑建立起来的方法论从数学扩展到自然科学领域,而且把托勒密用机械运动描述天体的规律扩展到对世界任何规律的描述,后来人们将牛顿的方法论概括为机械思维,其核心思想有三:

    1. 世界的变化规律是确定的
    2. 规律不仅可以被认知,而且可以用简单的语言描述
    3. 这些规律可以在未知领域指导实践

机械思维的局限性:

  • 否认了不确定性(量子力学中测不准原理\(\Delta t\cdot\Delta p>\varepsilon\))

:

In statistical mechanics, entropy is an extensive property of a thermodynamic system. It is closely related to the number Ω of microscopic configurations (known as microstates) that are consistent with the macroscopic quantities that characterize the system (such as its volume, pressure and temperature). Under the assumption that each microstate is equally probable, the entropy S is the natural logarithm of the number of microstates, multiplied by the Boltzmann constant \(k_{B}\). Formally,\(S=k_{B}\ln\Omega\).

香农在信息论中借用了热力学中熵的概念,描述了一个信息系统的不确定性.信息论主要包括自信息(self-information),互信息(mutual-information),香农第一定律(噪声信道编码定理)和香农第二定律:

  • 自信息:\(H(X)=\mathbb {E}_{X}[I(x)]=-\sum_{x\in \mathbb {X} }p(x)\log p(x)\)
  • 互信息:\(I(X;Y)=\mathbb {E}_{X,Y}[SI(x,y)]=\sum_{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}\)
  • 香农第一定律(Shannon's source coding theorem):对于信号源发出的所有信息设置一种编码,那么编码的平均长度一定大于该源的信息熵;且一定存在一种编码,这种编码的平均长度能无限接近于它的信息熵(这种编码又称为是霍夫曼编码)
  • 香农第二定律(Noisy-channel coding theorem):信息传播速率不可能超过信道的容量

关于信息论,还有一个原理必须了解,那就是最大熵原理:

The principle of maximum entropy states that the probability distribution which best represents the current state of knowledge is the one with largest entropy, in the context of precisely stated prior data (such as a proposition that expresses testable information).

这原理的大意为,当我们要对未知寻求一个概率模型时,这个模型应当满足我们所有已经看到的数据,但对未知的情况不要做任何假设.这事实上截然不同于笛卡尔总结出:大胆假设,小心求证的方法论.

在无法确定因果关系时,数据所包含的信息能帮助我们消除不确定性,研究数据的相关性为我们从数据中得到信息提供一种更高效的方法(而不是直接研究因果关系),这两点便是大数据思维的核心.


大数据与商业

可以预见的是,在未来,大数据会如同水电,由专门的公司提供给全社会使用.


大数据和智能革命的技术挑战

大数据的数据量大、维度多、数据完备等特点使得它从数据收集到存储和处理都与过去的数据方法有很大不同,因此,这需要我们在技术上采用不同的方法.


未来智能化产业

现有产业+机器智能=新产业


智能革命和未来社会

在美国,很多道路在交通高峰期要求车上必须有两个及以上人才能使用快速车道,这些车道被称为拼车车道.


区块链

区块链(Block Chain):

  • Block:一个账户存储信息
  • Chain:一连串的交易信息

区块链的一项重要应用比特币实际上是由随机数算法产生的随机数,这个随机数在整个互联网上是唯一的,而且是可以验其真伪的.比特币在被矿工挖出时,就产生一个带有这样的特殊随机数的Block,当这个比特币通过交易到达第二个人手里时,在该Block中就记录下了这笔交易的信息,这个过程本质上是一个加密信息传输过程,一旦交易完成了,它就会被广播到整个互联网上.所有的比特币散布在整个互联网上,且通过公开秘钥来发送和传播,且没有一个中心去控制.

比特币(Bitcion):

  • a cryptocurrency and worldwide payment system
  • without a central bank or single administrator
  • the network is peer-to-peer
  • transactions are verified by network nodes through the use of cryptography and recorded in a public distributed ledger called a blockchain

区块链的另外一项重要应用是商品溯源,如果一个商品制造出来时产生这样一个区块链,并且它在被运输和交易时利用区块链记录全过程,那么当最终消费者购买到这个商品后,他可以看到这个商品是如何一步步到自己手上的.因为商品与区块链是一一对应的,这样子就能从理论上杜绝假货.