(发布时间:2018-01-10)
点击上方“汇商琅琊榜”,选择“置顶公众号”
专业的全球动态及深度解读,让一部分人先看准趋势
概率就是上帝在掷筛子——在18世纪,这是神职人员对概率的理解。为了证明上帝的存在,英国业余数学家托马斯·贝叶斯发明了概率统计学原理,他发现了古典统计学中的一些缺点,并在统计当中引入了一个主观因素(即先验概率)形成了自己的“贝叶斯统计学”。
然而他的理论在当时并不受认可。当然贝叶斯直到去世都没有印证上帝的存在,他的观点简单平淡:“用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。” 这个研究成果,直到他死后的两年才于1763年由他的朋友理查德·普莱斯帮助发表。1774年,法国数学家皮埃尔-西蒙·拉普拉斯才给出了我们现在所用的贝叶斯公式的表达。
贝叶斯公式
所谓的贝叶斯定理源于他生前为解决一个“逆向概率”问题写的一篇文章:“假设袋子里有白球和黑球,我们事先并不知道袋子里面黑白球的比例,而是闭着眼摸出一个(或好几个)球,观察这些取出来的球的颜色之后,我们可以就此对袋子里面的黑白球比例做出什么样的推测?”
贝叶斯定理实际上就是条件概率公式:设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为:
P(A|B)=P(AB)/P(B)
P(A)是A的先验概率,之所以成为先验是因为它不考虑任何B的因素,P(B)同理;
P(A|B)实在B发生时A发生的条件概率,称坐A的后验概率,P(B|A)同理。
贝叶斯定理通俗地讲,就是当你不能确定某一个事件发生的概率时,你可以依靠与该时间本质属性相关的事件发生的概率去推测该事件发生的概率
贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有:
上式即为贝叶斯公式(Bayes formula),Bi 常被视为导致试验结果A发生的“原因”,P(Bi)(i=1,2,...)为先验概率;P(Bi|A)(i=1,2...)为后验概率。
通过联系A与B,计算从一个时间发生的情况下另一时间发生的概率,即从结果上溯到源头(逆向概率)。
贝叶斯定理与经典统计学推断方法截然不同,它建立在主观判断的基础上,使用者可以不需要客观证据,先估计一个值,然后根据实际结果不断修正,正式因为它的主观性太强,和注重客观事实研究的经典统计学背道而驰,最终连公式的发现者拉普拉斯都放弃了它,转投经典统计学。但随着计算机的发展,高速运算能力解决了贝叶斯定理所需的大量运算问题,它的威力才逐渐显现。
贝叶斯应用的经典案例
两个标志性的事件使贝叶斯方法渐渐受到学术界的重视:
一是联邦党人文集作者公案:哈佛大学统计学教授Fredrick Mosteller和统计学家David Wallance通过分析词汇在文章中出现的频率,来判定《联邦党人文集》中存在争议的12篇文章其作者到底是汉密尔顿还是麦迪逊。
一是天蝎号核潜艇搜救:数学家John Craven通过数学家、潜艇专家、海事搜救等各个领域的专家,按照他们的猜测评估某种情景出现的可能性,并根据贝叶斯公式得到了一张20英里海域的概率图:
每次寻找时,先挑选整个区域内潜艇存在概率值最高的一个格子进行搜索,如果没有发现,概率分布图会被“洗牌”一次,搜寻船只就会驶向新的“最可疑格子”进行搜索,经过几次搜索,潜艇果然被找到了。这种基于贝叶斯公式的方法在后来多次搜救实践中被成功应用,现在已经成为海难空难搜救的通行做法。
这两个案例是贝叶斯应用的经典案例,但是限于当时的技术水平,贝叶斯的应用困难重重,主要的阻力来自于大量的计算,如1787年发生的联邦党人文集作者公案,David Wallance找了100个哈佛大学的学生来帮助处理数据,学生们用最原始的方式,用打字机把《联邦党人文集》打出来,剪下每个单词,按照字母表顺序将单词分门别类地汇集在一起,《联邦党人文集》中,已经确定作者的73篇文章:汉密尔顿写了9.4万字,麦迪逊写了11.4万字,可以想象这项工程有多枯燥浩大,Fredrick Mosteller和David Wallance花了十年的时间,才给这件事画上了一个完美的句号。
接下来究竟在哪些方面的应用让贝叶斯大放异彩,人们又是如何应用它进行机器学习的?
贝叶斯理论的伯乐
▲Frederick Jelinek
千里马常有,而伯乐不常有。谈起贝叶斯公式的应用,就不得不提起一个人——语音和语言处理大师Fred Jelinek,没有他,人们不知到多久以后才会知道语言还能被机器处理。
人们平时在说话时,脑子就是一个信息源。人们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译;如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。
在70年代以前,语音识别还停留在识别小词汇量、孤立词的方面
1973年,贾里尼克在IBM组建了语音识别的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的语音识别 Dragon 公司的创始人贝克夫妇,解决最大熵迭代算法的达拉皮垂(Della Pietra)孪生兄弟,BCJR 算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻译统计模型的布朗。
在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题:
贾里尼克把它当成通信问题,他通过将贝叶斯公式和马尔科夫链结合,简化问题使计算机能够方便求解,从而解决了语音识别问题。
N-Gram是大量词汇连续语音识别中最常见的一种语言模型,模型基于独立输入假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。这个是个基于贝叶斯公式的统计语言模型。
贾里尼克对至今的语音和语言处理有着深远的影响,他的研究从根本上使得语音识别有实用的可能。自此之后,贝叶斯方法的应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,如今,贝叶斯更是机器学习的核心方法之一。
“聪明的”贝叶斯分类器
我们都知道贝叶斯方法曾有200年无人问津,原因是经典统计学完全能够解决小型问题,而且相比需要靠主观判断的贝叶斯方法,建立在客观事实上的经典统计学更让人信服。但随着大型问题的出现,经典统计学在面对复杂问题时,往往无法获得足够多的样本数据,导致其无法通过研究样本来推断总体规律。数据的稀疏性令经典统计学频频碰壁,直到计算机技术的飞速发展后,数据的大量运算变得可能,贝叶斯方法这才被人重新重视起来。
我们以多分类任务为例,来解释贝叶斯决策的基本原理:
假设有N种可能的类别标记,即Y={c1,c2,...,cN},是将一个真实标记为
的样本误分类为
所产生的损失。基于后验概率
可获得将样本x分类为
所传声的期望损失——即在样本x上的条件风险:
(1.1)
我们的任务是寻找一个判定准则以最小化总体风险
(1.2)
显然,对每个样本x,若h能最小化条件风险,则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即
(1.3)
此时,h*称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险R(h*)称为贝叶斯风险(Bayes risk),1-R(h*)反映了分类器所能达到的最好性能,这也是通过机器学习所能产生的模型精度的理论上线。(更多内容,可参考《机器学习》周志华著)
正确识别垃圾邮件的技术难度非常大,传统方法有:
关键词法:根据特定关键词过滤邮件
邮件特征过滤法:根据邮件的某些特征,如语言、文件格式等判断是否为垃圾邮件
校验码法:计算文本的校验码,再与抑制的垃圾邮件进行对比
但这些方法识别效果并不理想,很容易规避。
2002年,Paul Graham提出用“贝叶斯推断”过滤垃圾邮件,结果这样做的效果好的不可思议,1000封垃圾邮件可以过滤掉995封,且没有一个误判。
可以看出贝叶斯分类器是一种统计学分类器,建立在已有的统计结果之上,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,而另一组是垃圾邮件。以这两组邮件对分类器进行训练,邮件的规模越大,训练的效果就越好
这种分类器具有自我学习的功能,所以贝叶斯分类器被广泛应用在人工智能、心理学、遗传学、模式识别等领域。
贝叶斯决策论在机器学习,模式识别等诸多关注数据分析的领域都有极为重要的地位,对贝叶斯定理进行近似求解,为机器学习算法的涉及提供了一种有效途径。
根据对属性间依赖的涉及程度,贝叶斯分类器形成了一个谱:从朴素贝叶斯分类器(不考虑属性间依赖性)到贝叶斯网(表示任意属性间依赖性),二者之间是一系列半朴素贝叶斯分类器。它们各有所长,针对某些特定问题有着非常显著的效果。
比如朴素贝叶斯分类器:它引入了属性条件独立性假设,这个假设其实在现实应用中很难成立,但是许多情形下并不影响朴素贝叶斯分类器的性能,在信息检索领域十分常用。
又如贝叶斯网:它借助有向无环图来刻画属性间的依赖关系,为不确定学习和推断提供了基本框架。它比马尔科夫链灵活,更适合解决复杂问题,未来随着量子计算机的发展,贝叶斯网络进行迭代训练的计算问题将会得到解决,届时,贝叶斯网一定能在人工智能领域大放异彩。
最简单的贝叶斯定理,到复杂的贝叶斯网,回头来看,现在的许多算法都是许多年前就已经出现的,数学的神奇可见一斑。写到这里,我们再回头看看文章最开始讲的贝叶斯定理:
P(A|B)=P(AB)/P(B)
就会发现,原来机器学习的智慧,最初竟是如此简单的模样。
利差、脱欧谈判的过程。2018年预测英镑/美元的区间在1.3~1.38。” 来源: 量化投资与金融科技
其他用户正在看
想加入多个专业的500人外汇交易微信群吗?
添加主编个人微信(forextop77)入群。
长按下图二维码,关注汇商琅琊榜微信公号
以下市场推广内容与本文图文无关
------------------------
XM.CO.UK
拥有英国FCA监管的外汇经纪商
中国市场六年耕耘,
真诚服务投资者。