AI智商将为零,每个数据科学家都该读的五本无关

原标题:每个数据科学家都该读的五本无关技术的书

原文地址:How to Learn Statistics for Data Science, The Self-Starter Way

图片 1

图片 2

统计学:理解统计学、特别是贝叶斯概率对许多机器学习算法来说都是至关重要的。

图片 3

关于我们的宇宙,我们到底知道些什么?

大数据文摘出品

你想快速且低廉的方式学习统计学?好消息...,你可以通过免费的在线资源掌握核心概念、概率、贝叶斯思想甚至统计机器学习,这儿有自学最好的资源。

本文转自量子学派(微信:quantumschool)

宇宙诞生于138亿年前的一次宇宙爆炸,宇宙迅速膨胀,然后冷却,它仍在以越来越快的速度膨胀,主要由未知的暗物质和暗能量组成...对吗?

编译:M、小七

顺便说下,你不用需要一个数学学位,但是,如果你有数学背景,你肯定会喜欢这种有趣的、动手的方法。

图片 4

这一众所周知的故事通常被认为是不言而喻的科学事实,尽管相对缺乏经验证据,而且在遥远宇宙的观测中也出现了一系列的不一致。

2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并看到了大数据、商业智能、数据分析和现在的人工智能等流行语的兴衰。

这个指导将使你有在数据科学领域必须的统计思维,它将让你比一些没有它的有抱负的数据科学家更有利。

本文节选自《人类最美的 54 个公式》

最近几个月,哈勃常数的新测量,即宇宙膨胀速率,表明了两种独立的计算方法之间的主要区别。膨胀速率的差异不仅对计算有巨大的影响,而且对宇宙学目前的标准模型在宇宙的极端尺度上的有效性也有巨大的影响。

在华盛顿大学开启我人生新阶段的这一课程是“金融计量学”,就像今天的深度学习课程一样,很大的教室也坐的满满当当。当时,金融危机在每个人心中仍然历历在目。对于工程师来说,这也是一种微妙的信息: 如果你想获得一份报酬丰厚的工作,那么就进入金融领域,成为一名金融计量分析师,就像今天的数据科学一样。

你知道的,自从你学习如何去编程,它总是会引诱你直接使用机器学习包,即使你知道又能怎么样呢?如果你想在开始的时候,通过在真正的项目里面去滚雪球的方式学会也是可以的。

最近的另一个探测器发现星系与暗物质理论不一致,后者认为这种假设物质无处不在。但根据最新的测量结果,事实并非如此,这表明该理论需要重新检验。

在业务运营中直接使用数学的概念很有趣,不仅仅是为了决策支持,更是为了做出实时决策。然而,金融危机也暴露了,即使是最复杂的模型来应对现实世界的混乱也有不足之处。

但是,如果这样的话,你将可能永远不会完全的去学习统计学和概率论,而作为一个数据科学家,这些是你的职业生涯中非常必要的部分,这就是为什么要学的原因。

我思故我在

也许值得停下来问一问,为什么天体物理学家假设宇宙中到处都是暗物质?答案在于宇宙物理学的一种奇特的特性,而这一特性并不经常被注意到。对于诸如暗物质、暗能量和膨胀这样的理论的一个关键功能,它们各自以自己的方式与大爆炸范式联系在一起,不是描述已知的经验现象,而是要在解释不同的观察结果的同时,保持框架本身的数学一致性。从根本上说,它们是一些必须存在于框架被假定为普遍有效范围内的事物的名称。

许多人认为,金融危机的核心是获得过诺贝尔奖的布莱克-舒尔斯模型(Black-Scholes)期权定价模型。这个模型在不了解其固有局限性和隐含假设的情况下,来衡量大型投资的风险。这种技术盲目性造成了灾难性经济损失的条件。

首要必须的: 基本的Python技能

为了完成这个教程,你需要最基本的Python编程技能,我们将通过应用、动手的方式学习统计学。如果你没有相关技能,可以通过我们的教程,如何通过自学的方式学习python, 这是快速学习Python最快的方式,我们推荐至少要完成到教程的第二步。注:可以是其他语言,但是示例都是Python.

AI 背后的神秘公式

当然,观察和理论之间的每一个新的差异本身都可以被认为是对更多研究的承诺,是对真理的一种逐步完善。但当它加起来的时候,它也可能提出一个更复杂的问题,而这个问题并不是通过调整参数或添加新的变量来解决的。

如今,有抱负的数据科学家们都需要去学习一系列令人难以置信的建模技术。每种方法背后都有自己的一套理论,例如线性回归,你通过使用它就可以知道这些理论的实用性,不管你了解其背后的理论也好,不了解也罢。

在数据科学中,统计学的必要性

统计是一个广泛的领域,应用于许多行业。

它在维基百科的定义是:它是对数据的收集,分析,解释,呈现和组织的研究。所以,数据科学家需要了解统计学就不那么让人感到惊奇了。

例如,数据分析至少需要描述性统计和概率论。这些理论将帮助你更好的根据数据做一些商业决定。

关键概念包括概率分布,统计学意义,假设检验和回归。

而且,机器学习需要明白贝叶斯概率,贝叶斯概率是许多机器学习模块的引擎。

关键概念包括条件概率、先验概率、后验概率、最大似然估计,如果这些概念让你感到畏惧,不要着急,一旦你卷起袖子并开始学习,这一切都会明白。

近代哲学奠基人,伟大的笛卡尔说出“我思故我在”时,上帝震惊了。

图片 5

这已经创造了一大批准备使用模型而不了解模型背后理论的新工人。年轻社区没有解决技术盲目性问题,而是参与有关工具的代理争论(R与Python!)。

学习数据科学中的数据统计最好的方式

到目前为止,你可能已经发现,“自学某个知识X”的共同方式是跳出课堂教学而直接通过动手的方式,掌握数据科学中统计学也不例外。

事实上,我们通过编程的方式来掌握统计学中的核心概念,这将非常有趣。

如果你没有正式的数学相关教育背景,那么你会发现,通过这种方式能够让你更加简单的理解复杂的公式。它将让你对每个计算的逻辑进行思考。

如果你有一些正式的相关的数学背景,这种方式可以将你的理论与实践将结合,且给你很多有趣的编程挑战。

以下是在数据科学领域学习统计学和概率论的三个步骤:

  1. 统计学核心概念

    描述性统计,分布,假设检验和回归。

  2. 贝叶斯概率理论

    条件概率、先验概率、后验概率、最大似然估计

  3. 介绍机器学习中的统计学

    学习基本的机器学习概念及如何在机器学习中使用统计学

在完成这三步以后,你将真正的接触和面对更加困难的机器学习问题和常见的数据科学应用。

第一个被赋予公民身份的机器人 Sophia(索菲娅)被问到:你怎么知道自己是机器人?Sophia 的回答是:你怎么知道自己是人类?

考虑问题的背景和历史。作为一门数学驱动的科学,宇宙物理学通常被认为是非常精确的。但宇宙与地球上任何科学主题都不同。一种关于整个宇宙的理论,基于我们自己的微小邻域作为它的唯一已知样本,需要很多简化的假设。当这些假设相乘并延伸到很远的距离时,产生错误的可能性就会增加,而我们非常有限的测试手段又会使这一点变得更加复杂。

为了帮助解决这个问题(我也受到了影响),我这里提供了一份简短的阅读清单,这份清单可以为数据科学家们奠定理论基础。此外,这些书还将激发你思考在使用模型之前有关模型技术假设的问题。

第一步:统计学核心概念

为了知道如何去学校统计学,首先,了解它是如何被使用的是对学习很有帮助的。让我们先看一些真正分析的示例或作为一个数据科学家可能会用到的应用:

  1. 试验性设计:你们的公司开始一个新的产品线,但是是通过线下零售销售。你需要设计一个A/B测试以控制不同区域之间的差异。你也需要从统计角度去估算门店使用的一些有意义的结果。
  2. 回归模型:你们公司需要能够更好的预测在它的所有门店里,个人产品线的需求是什么样的。库存不足和库存过剩都会有很高代价的,你考虑建立一系列的正则回归模型。
  3. 数据转换:在你正在测试中,有多个机器学习模型供你使用,有些模型能够通过输入数据生成相应的数据分布,你需要能够识别他们,并适当的转换输入数据或者知道在什么假设下具有相关性。

一个数据科学家每天要做上百个的决定,范围小到一个模块的挑战,大到一个团队的R&D策略。

大多数决定需要有坚实的统计学和概率论的理论基础。

例如,数据科学家需要经常决定哪个数据是确定的,哪个数据是具有随机性的。此外,他们需要知道是否有进一步探索的兴趣点。

这些都是在在做分析决定时很核心的东西(如果仅仅知道如何计算数值,那就仅仅接触表面而已)。

这儿有我们发现的最好的自学统计学基础的资源:

图片 6

Think like a Bayesian...

Think Stats是一本极好的书籍(有免费的PDF版本),介绍所有核心概念。看这本书前提是什么呢?如果你知道如何编程,那么你可以在这过程中自己学习统计学,我们发现,这方式也很适合那些有数学背景的人。

机器人会反驳了,这到底是新世纪的福音,还是人类的转折?

从历史上看,牛顿的物理定律构成了一个理论框架,它以惊人的精度为我们自己的太阳系工作。例如,天王星和海王星都是通过基于牛顿模型的预测而被发现的。但是随着量表的增大,它的有效性被证明是有限的。爱因斯坦的广义相对论框架提供了一个超出我们银河系最远范围的更广泛、更精确的范围。但它到底能走多远呢?

此列表并非详尽无遗,书籍主题也会从入门到深入研究。其对金融工程的影响是巨大的,因为相比比任何其他学科,金融工程更多的产生的是通用数据科学家。

第二步:贝叶斯概率理论

统计学的一个哲学辩论是频率论(Frequentists)和贝叶斯概率理论(Bayesians),当在数据科学中学习统计学时,贝叶斯理论就更加具有相关性。

简而言之,频率论近用于抽样模块。意味着,他们只会用于对已经收集的数据进行描述。

另一方面,贝叶斯理论不仅用于抽样模块,也会用于在收集之前不确定的数据。如果你想了解更多它们之间的区分,你可以看下这个帖子:For a non-expert, what's the difference between Bayesian and frequentist approaches?.

在贝叶斯理论中,在收集数据之前不确定的水平称之为“先验概率”,数据之后,就会更新为“后验概率”,对于一些机器学习模型,这是很核心的概念,掌握它们非常重要。

而且,这些概念在使用它们之后都会有意义。

这儿有我们发现的最好的自学贝叶斯理论的资源:

图片 7

Think like a Bayesian...

Think Bayes是一本极好的书籍(有免费的PDF版本),介绍所有贝叶斯理论相关的。它也是使用通过编程的方式去学习,这种方式有趣且简单,我们发现,这方式也很适合那些有数学背景的人。

AI(人工智能)已经不再是完全被动地向人类表述世界,而开始主观性地表达意见。

20世纪中叶出现的大爆炸模式有效地将模型的有效性扩展到了一种无穷大,它被定义为宇宙半径的边界(以460亿光年计算),或者是时间的开始。这一巨大的扩展是基于一些具体的发现,如埃德温·哈勃(Edwin Hubble)在1929年观察到的宇宙似乎正在膨胀,以及1964年对微波背景辐射的探测。但考虑到所涉及的规模,这些有限的观测对宇宙学理论产生了极大的影响。

图片 8

第三步:介绍机器学习中的统计学

如果你想数据科学中学习统计学,在你学完统计学核心概念和贝叶斯理论后,没有比在机器学习模块中使用统计分析更好的方式了。

机器学习领域和统计学联系非常紧密,统计学的机器学习是现在机器学习最主要的方式。

在这一步中,你将实施一些来自scratch的机器学习模块,这将帮助您解开对其潜在技术的真正了解。

在这一阶段,即使你一行一行的直接copy代码,也是可以的。

它将帮助你在巩固你学习的统计学习的知识的同时,打开机器学习的黑盒子。

选择了以下模型,因为它们说明了前面几个关键概念。

Google 自动驾驶汽车的操纵系统,G-mail 对垃圾邮件的处理,MIT 主导的人类“写字”系统,以及最新的 SIRI 智能语音助手平台,还有挑战人类最后智慧堡垒的 AlphaGo 系统,都已经开始了“深度学习”暴风雨式革命。

当然,广义相对论的有效性更接近我们自己的家园,而不是在假设的宇宙末端的边缘,这是完全可信的。如果是这样的话,今天的大爆炸范式的多层次理论建筑将会是一个混乱的组合,被发明出来支持这个模型,以及经验上有效的变量,相互依赖,以至于不可能把科学和小说区分开来。

《不确定性》:这套书是Nassim Taleb的著作集,其中最著名的是《黑天鹅事件》,最好的是《反脆弱》。Taleb是风险、不确定性和定量问题方面最伟大的现代思想家。他也是一个推特大V,以炮轰那些他称为 “有知识却仍然是白痴”(简称IYI)的人而闻名。在背景方面,他原本是一位移民衍生品交易员,之后成为了数学哲学家。你要么爱他,要么恨他,因为他会在他的所有写作中不断挑战你的假设。如果他新写了任何东西,你都应该立即把它放在你的阅读清单上。

线性回归

首先我们有预测模型的范例...

  • Linear Regression from Scratch in Python

这几年,机器智能向“我思故我在”这个哲学命题步步逼近,一只神秘之手躲在后面操纵,它就是贝叶斯公式。

使这个问题更加复杂的是,对宇宙的大多数观测都是通过实验和间接的方式进行的。今天的太空望远镜不能提供任何东西的直接视图,它们通过理论预测和参数的相互作用来产生测量,在这一过程中,模型涉及到每一步。这个框架从字面上描述了这个问题,它决定在哪里以及如何观察。因此,尽管涉及到了先进的技术和方法,但这种努力的深刻局限性也增加了被无法计算的假设误导的风险。

图片 9

朴素贝叶斯分类器

再次,我们有工作很好的尴尬的简单模型...

  • Intuitive Introduction, Naive Bayes from Scratch in Python

当科学在证明自己对世界的客观认知时,贝叶斯公式却融入了人类的主观性。

图片 10

《财富公式》:这是关于凯利标准早期在麻省理工诞生的故事。凯利标准据说产生于一次巨大的财务成功。您将了解信息理论之父(Claude Shannon)以及后来在Ed Thorpe所著的《击败庄家》中出名的记牌恶作剧的源头。Thorpe现在被认为是定量对冲基金的教父。最重要的是,这本书展示了一个好的模型如何永远不会被忽视,但是坏的模型可能会毁掉你。这个故事也是历史上计算机科学和数学第一次合作解决现实世界的问题——赌博。这个故事是数据科学产业诞生60年前的一个预示。

多臂赌博机

最后,我们有着著名的的“20行代码,打败任何A / B测试!”

  • Intuitive Introduction, Multi-Armed Bandits from Scratch in Python

如果你渴望学到更多,我们推荐以下资源。

图片 11

For your reference...

Introduction to Statistical Machine Learning是一本极好的电子书籍(有免费的PDF版本),里面的示例是使用R语言,这本书涵盖了更广泛的话题,当您在机器学习方面取得更多的进展时,这是一个有价值的工具。。

图片 12

在花了很多年时间从科学哲学的角度研究宇宙物理学的基础之后,听到一些科学家公开谈论宇宙学的危机,这并不感到惊讶。几年前,在一场重大“宇宙膨胀辩论”中,大爆炸范式的一个关键部分遭到了该理论最初支持者的批评,认为这一理论作为一种科学理论是站不住脚的。

图片 13

更多资源

  • How to Learn Math for Data Science, The Self-Starter Way
  • 6 Fun Machine Learning Projects for Beginners
  • Supercharge Your Data Science Career: 88 Free Resources

01

为什么?因为宇宙膨胀理论依赖于临时的设计来容纳几乎所有的数据,而且它所提出的物理场也不是基于任何有经验根据的东西。这可能是因为宇宙膨胀的一个关键功能就是将未知的大爆炸转变为我们今天所能认识的物理学。那么,这是科学还是一项方便的发明?

《混沌:开创新科学》:这本书包含了最新兴科学的详细历史。既有混沌理论的历史,也有关于该主题的评论。本书将让读者了解我们模拟现实世界的能力的局限性。由于非线性过程的性质,许多正在开发和已经使用的深度学习模型无法真正被理解。本书将帮助您理解这些局限性。此外,光是对Benoit Mandelbrot的生活和工作进行全面评价,就使这本书对于任何数据科学家来说都是必读的。James Gleick是一位出色的作家,还有许多其他优秀的书籍可以添加到你的阅读列表中。

“不科学”的贝叶斯-拉普拉斯公式

一些天体物理学家,如迈克尔·J·迪斯尼(Michael J.Disney),批评了大爆炸的范例,因为它缺乏可证明的确定性。在他的分析中,理论框架中的某些观测要比自由参数少得多。所谓的“负面意义”,对任何科学来说都是一个警示信号。迪斯尼写道:“怀疑者有权认为,经过如此多的时间、努力和修饰后,负面意义只不过是人们对一个故事不断地重新编辑以适应新观察。”

图片 14

贝叶斯定理是 18 世纪英国数学家托马斯·贝叶斯提出的概率理论。

当前的问题背后有着更深层次的历史。大爆炸假说本身最初是广义相对论重塑的间接结果。爱因斯坦对宇宙做了一个基本的假设,即宇宙在空间和时间上都是静态的,为了使他的方程组组合起来,他添加了一个“宇宙学常数”,他坦率地承认没有任何实际的理由。

《暗池交易》:本书讲述了一个程序员改变了股市交易的故事。现在预测模型被部署在高频交易的世界中,其中决策以纳秒速度进行。本书介绍了这个隐蔽但强大的生态系统的诞生。关于这个故事的奇妙之处在于它阐明了当你知道一些代码时如何解决许多问题。它还表明创造真正的价值是做一些真正创新的事情,而不是依赖现有的假设。有时你必须有点疯狂才能解决一个难题。

该定理源于他生前为解决一个“逆概”问题写的一篇文章,在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有P只螃蟹,Q只蜘蛛,你伸手进去摸一把,摸到螃蟹的概率是多大”。但反过来看:“如果我们事先并不知道袋子里面螃蟹和蜘蛛的比例,而是闭着眼睛摸出一只(或好几只)螃蟹,那么我们可以就此对袋子里面的螃蟹和蜘蛛的比例作出什么样的推测。”这个问题就是逆向概率问题。

但是,当哈勃望远镜观察到宇宙正在膨胀,爱因斯坦的解决方案似乎不再有意义时,一些数学物理学家试图改变这个模型的一个基本假设:宇宙在所有空间方向上都是相同的,但在时间上是不同的。不出所料,这一理论带来了一个非常有希望的好处:宇宙学和核物理学之间可能的融合。原子的新模型也能解释我们的宇宙吗?

图片 15

这个研究看起来似乎简单而平淡无奇,直到他死后的两年才于 1763 年发表。它的数学原理很容易理解,就像一个迷信星座的 HR,如果你碰到一个处女座的应聘者,你会推断那个人多半是一个追求完美的人。这就是说,当你不能准确知悉某个事物本质时,你可以依靠经验去判断其本质属性的概率。与其他统计学方法不同,贝叶斯方法建立在主观判断的基础上,让人感觉不科学,这也是它 200 多年来不为科学家们待见的原因。

图片 16

《不会死的理论》:本书主要讲述贝叶斯公式和贝叶斯统计的历史以及它的竞争对手——频率统计。统计历史和用平实的语言评论关键技术主题使得本书变得至关重要。你将了解历史上一些最伟大的思想家,如Pierre Laplace和R.A. Fischer,以及他们的哲学在几个世纪以来如何塑造了世界的数据处理方法。

除了贝叶斯,1774 年,法国数学家拉普拉斯也非常“不科学”地发现了贝叶斯公式。这位创立了大名鼎鼎的谛听神兽拉普拉斯兽的科学家,给出了我们现在所用的贝叶斯公式的表达:

从一开始,该理论只谈到一个明确的假设事件的直接后果,它的主要功能是作为一个极限条件,在这一点上,理论崩溃。大爆炸理论不能说明大爆炸,它是解决广义相对论的一个可能的假设前提。

这五本书虽然不详尽,但将有助于为处理现实问题的数据科学家建立哲学基础。使其不再犯十年前那些金融计量学家们所犯的错误。寻求理解技术和模型的哲学,而不仅仅是机械地使用他们,我们的专业将变得无价。返回搜狐,查看更多

图片 17

在这一无法证明但非常有成效的假设的基础上,一层接一层地添加了完整的内容,扩展了很大的范围,并出现了新的差异。为了解释对与广义相对论不一致的星系的观察,暗物质的存在被假定为一种未知和不可见的物质形式,当然,假设这个框架是普遍有效的。1998年,当一组超新星对加速星系的测量似乎与这一框架相矛盾时,一种新的理论产生了一种称为暗能量的神秘力量。

责任编辑:

该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。

当今宇宙学范式的核心是,为了维持一个对整个宇宙有效的数学统一理论,我们必须承认,我们95%的宇宙是由完全未知的元素和力量提供的,我们对这些元素和力没有任何经验证据。对于一个科学家来说,要对这幅画有信心,就需要对数学统一的力量有非凡的信心。

公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。

最后,宇宙学的难题在于它依赖框架作为进行研究的必要前提。由于缺乏明确的替代方案,正如天体物理学家迪斯尼也指出的那样,从某种意义上讲,它被这种范式所困住了。增加新的理论基础似乎比重新思考基本面更为务实。

像微积分公式的全称是“牛顿-莱布尼茨公式”一样,公式至少应被称为“贝叶斯-拉普拉斯公式”才科学。

图片 18

02

今天天气怎样?

贝叶斯公式是这样工作的

贝叶斯定理并不好懂,它到底是如何为人民服务的?

对于贝叶斯定理,参照上面的公式,首先要了解各个概率所对应的事件。

  • P(AB)是在B发生的情况下A发生的概率;

  • P(A)是A发生的概率;

  • P(BA)是在A发生的情况下B发生的概率;

  • P(B)是B发生的概率。

就知道你没看懂……那我还是举个经常用到的例子吧!

量子学派 CEO 良心发现放假 10 天,量子妹约定帅哥去爬梧桐山,希望玩到人约黄昏后占点便宜,然而天公不作美,一大早天空多云。

图片 19

这可怎么办?60% 的雨天的早上是多云的。帅哥说,不玩了吧。

量子妹当然不甘心,劝说帅哥:

  1. 多云不见得会下雨,大约 30% 日子早上是多云的!

  2. 深圳天气平均一个月才会 3 天下雨,10% 的概率而已。

帅哥并不是绣花枕头,非常科学地用“贝叶斯公式”计算:

用“雨”来代表今天下雨,“云”来代表早上多云。

当早上多云时,当天会下雨的可能性是P(雨云)。

P (雨云) = P (雨)·P(云雨) /P(云)

P (雨) 是今天下雨的概率 = 10%

P (云雨) 是在下雨天早上有云的概率 = 60%

P (云) 早上多云的概率 = 30%

那么,贝叶斯定理的答案就出来了

P (雨云) =0.1×0.6/0.3=0.20

帅哥毫无表情地说:今天下雨的概率是 20%,可以去爬山。

量子妹看着美得不食人间烟火的帅哥,怯生生地问:你真的是人吗?

帅哥毫无表情地回答:我不是人,我是阿尔法狼。

图片 20

03

贝叶斯公式如何逐步取得人类信任

今天的贝叶斯理论开始遍布一切。从物理学到癌症研究,从生态学到心理学。

物理学家提出了量子机器的贝叶斯解释,以及贝叶斯捍卫了弦和多重宇宙理论。

哲学家主张作为一个整体的科学可以被视为一个贝叶斯过程。

贝叶斯定理就快成像“热力学第二定律”一样放之四海皆准了。

特别是在 IT 界,AI 大脑的思考和决策过程,被更多工程师设计成一个贝叶斯程序。

但贝叶斯诞生以来命途多舛,长期以来因为表面的不科学,并没有得到主流学界认可。

其实在日常生活中,我们也常使用贝叶斯公式进行决策。比如我们到河边钓鱼,根本就看不清楚河里哪里有鱼或者没鱼,似乎只能随机选择,但实际上我们会根据贝叶斯方法,利用以往积累经验找一个回水湾区开始垂钓。

这就是我们根据先验知识进行主观判断,在钓过以后对这个地方有了更多了解,然后再进行选择。所以,在我们认识事物不全面的情况下,贝叶斯方法是一种非常理性且科学的方法。

图片 21

贝叶斯公式得到主流科学界的认可,主要因为两件事:

1、《联邦党人文集》作者揭密

1788 年,《联邦党人文集》匿名出版,作者汉密尔顿和麦迪逊写作风格几乎一致。两个人都逝世后,要找出每一篇文章的作者极其困难,哈佛大学通过对词汇的贝叶斯研究方法最终找出了每一篇的文章作者,研究方法在统计学界引发震动,被禁锢了 200 年的贝叶斯公式从魔盒里被释放出来。

2、美国天蝎号核潜艇搜救

1968 年 5 月,美国海军天蝎号核潜艇在大西洋亚速海海域失踪。军方通过各种技术手段调查无果,最后不得不求助于数学家 John Craven,John Craven 提出的方案使用了贝叶斯公式,他召集了数学、潜艇、海事搜救等各个领域的专家,一边掷骰子一边通过贝叶斯公式一一排除小概率发生意外事故的搜索区域。

图片 22

2014 年初马航 MH370 航班失联后,科学家想到第一个方法就是利用贝叶斯定理开始区域搜索,这个时候,贝叶斯公式已经名满天下了。

04

语音识别

贝叶斯公式开始展示“神迹”

科大讯飞因为语音识别成为千亿级市值公司,首先得感谢贝叶斯公式和马尔科夫链。

自然语音处理一直是科学家面临的最大难题,在计算机语言处理领域,近几年引入了贝叶斯公式和马尔科夫链才有了长足进步(这里不详细介绍马尔科夫链)。

文字翻译尚可理解,但语音涉及各种动态语法,机器怎么知道你在说什么鸟语?

但当你在现场看到机器翻译的准确性,会感叹这简直就是“神迹”,比大部分现场翻译要强得多。

一旦出现条件概率,贝叶斯总能挺身而出。

我们用P(fe)区别于以上的P(AB)来解释语音识别功能。

统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的。即我们需要计算:P(fe)。

P (fe) ∝ P (f) * P (ef)

这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。我们只需简单统计就可以得出任意一个外文句子f的出现概率。然而 P (ef)却不是那么好求的,给定一个候选的外文局子f,它生成(或对应)句子e的概率是多大?我们需要定义什么叫“对应”,这里需要用到一个分词对齐的平行语料库。

率先成功利用数学方法解决自然语言处理问题的是贾里尼克,他把语音识别简化为用贝叶斯公式处理的数学问题成功开辟了一条全新的问题解决路径。

随着大量数据输入模型进行迭代,随着计算能力的不断提高、大数据技术的发展,贝叶斯公式巨大的实用价值愈发体现出来。

语音识别仅仅只是贝叶斯公式运用的一个例子,其实贝叶斯定理的思想已经渗透到 AI 的方方面面。

图片 23

05

贝叶斯网络

AI 智慧的“蜂群效应”

单个语音模型的建立让我们看到了贝叶斯定理解决问题的能力,但贝叶斯网络的拓展让我们隐约感觉到了 AI 背后“天网”的恐怖。

人类相对简单的问题已经解决得差不多了,剩下的都非常复杂。

龙卷风的形成,2 的 50 次方可能的最小参数值比对。

癌症致病基因,2 的 100 次方种可能的基因图谱。

星系起源,2 的 350 次方种可能的星云数据处理。

大脑运作机制,2 的 1000 次可能的意识量子流。

面对这样数理级的运算,科学家别无选择,必须从可能的法则中选择一些可以信任的,并以此为基础建立理论模型。贝叶斯公式正好以严谨的数学形式帮他们实现了这一点。科学家把所有假设与已有知识、观测数据一起代入贝叶斯公式,就能得到明确的概率值。而要破译某种现象的成因网络,只需将公式本身也结成网络,即贝叶斯网络,接下来只需要向这个模型代入观测数据,通过网络节点间的贝叶斯公式重新计算出概率值。为每个新数据、每个连接重复这种计算,直到形成一个网络图,让任意两个原因之间的连接都得到精确的概率值为止。

人类认知的缺陷越大,贝叶斯网络展示的力量越让人震撼。

图片 24

但这还不是最可怕的,这里我们要引入“蜂群效应”,一只个体蜜蜂,基本上没有智力,但当它们组建成一个蜂群时,就会爆发出一种整体智力,拥有记忆能力,能制造出巧夺天工的蜂巢。贝叶斯网络的每一个节点就像一只蜜蜂,这种群体的连接不仅生动,而且非常严谨,一旦这个群体达到一定数量级别,有没有可能产生整体智慧?这不仅是哲学家需要思考的问题,生命学家需要讨论的问题,AI 圈的科学家也应该直接去面对。

今天一场轰轰烈烈的“贝叶斯革命”正在 AI 界发生:贝叶斯公式已经渗入到工程师的骨子里,分类算法也成为主流算法。在很多人眼中,贝叶斯定理就是 AI 进化论的基石。

图片 25

封杀这个公式,

AI 智商将为零?

AI 人工智能第一课,都是从贝叶斯定理开始。

因为大数据、人工智能和自然语言处理中都大量用到贝叶斯公式。

我们无法预测到贝叶斯公式与计算机结合的真正威力,因为一切才刚刚开始。

贝叶斯公式与 AI 的结合,这到底是一场科学的革命,还是一场理念的革命?到底是生产方式的革命,还是人类在革自己的命?

当年人类科学家总结出客观的贝叶斯公式,而 AI 却利用这个公式给自己注射主观基因,两者颠倒,在未来到底会演绎怎样的相爱相杀故事?

如果真的到了决战的一天,人类到底该如何给自己留一把杀手锏?是否应该像 NSA 在算法里留下后门一样,抽离出这个公式,让 AI 无法“我思故我在”。

这似乎有点杞人忧天了,纵观整个社会,现在不用太担心 AI 像人一样思考,最应该担心人类已经失去了思考。

【编辑推荐】

本文由财神彩票注册登录发布于财神彩票app最新版下载,转载请注明出处:AI智商将为零,每个数据科学家都该读的五本无关