• 欢迎访问数智,大数据学习

【ML第五节】:机器学习之朴素贝叶斯算法

机器学习 Raybra_Wei 2年前 (2018-09-06) 508次浏览 0个评论 扫描二维码

贝叶斯决策论在概率论的框架下对样本进行分类的方法, 在所有相关概率都已知的理想情形下, 贝叶斯决策考虑基于这个概率和误判损失来对样本进行分类。

设有 N 种可能的类别, 即 y={c1,c2,…,cN}. λij 是将一个真实类别为 cj 的样本判为 ci 的损失。 基于后验概率可得将样本分类所产生的期望损失, 或者成为条件风险(Conditional Risk)

【ML 第五节】:机器学习之朴素贝叶斯算法

那么任务是寻找一个判定准则 h:x->y 以最小化总体风险

【ML 第五节】:机器学习之朴素贝叶斯算法

显然,对于每个样本 x,如果 h 能最小化风险,那么总体风险也将被最小化。这样就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,既:

【ML 第五节】:机器学习之朴素贝叶斯算法

此时,h*称为贝叶斯最优分类器,与之对应的总体风险称为贝叶斯风险。

如果任务目标是最小化分类错误率,那么:

【ML 第五节】:机器学习之朴素贝叶斯算法

此时条件风险为:

【ML 第五节】:机器学习之朴素贝叶斯算法

所以:

【ML 第五节】:机器学习之朴素贝叶斯算法

于是, 问题的关键就转变为如何从训练样本中获取 P(c)和 P(x|c)。

如果要使用贝叶斯判定准则来最小化决策风险,首先需要获得后验概率 P(c|x)(很那获直接得)。机器学习所要实现的是基于有限的训练样本尽可能准确的估计出后延概率 P(C|X)。两种策略:1.判别式模型,给定 x,通过直接建模 P(C|X)来预测 C。2.生成式模型,先对联合概率分布 P(C,X)建模,然后得到结果。对生成式模型必然考虑:

【ML 第五节】:机器学习之朴素贝叶斯算法

基于贝叶斯定理,原式等价于:

【ML 第五节】:机器学习之朴素贝叶斯算法

朴素贝叶斯算法:是一种基于概率论的分类方法;之所以称为朴素,是因为整个形式化过程只做原始、最简单的假设,对已知类别,假设所有属性相互独立(假设每个属性独立的对分类结果发生影响)。

优点:在数据较少的情况下任然有效,可以处理多分类别问题。

缺点:对于输入数据的准备方式较为敏感。

使用数据类型:标称型数据

基础知识:P(A)事件 A 发生的概率、P(B)时间 B 发生的概率、联合概率:两个时间共同发生的概率,P(AB)、P(A,B)、 、先验概率:根据以往经验和分析得到的概率;后验概率:条件概率,事件 B 发生下时间 A 的条件概率,P(A|B)

常用场景:网页自动分类、垃圾邮件判断、评论自动分析、通过用户访问内容判别用户喜好。

贝叶斯定理重写:

【ML 第五节】:机器学习之朴素贝叶斯算法

由联合公式推导出来:P(Y,X)=P(Y|X)*P(X)=P(X|Y)*P(Y)

机器学习视角理解:把 X 理解为“具有某特征”,把 Y 理解为类别标签。把计算“具有某特征的条件下属于某类”的概率等价位“属于某类的条件下具有某特征”的概率。

理解:比如我现在有 100 封邮件,正常邮件是 70 封,垃圾邮件是 30 封,在垃圾邮件里面有个特征是“编程培训”,在正常邮件里面这个词出现 20 次,垃圾邮件出现 20 次,总共 40 次。根据贝叶斯定理知:P(X|H)=20/30,P(H)=30/100,P(X)=40/100,所以 P(H|X)=1/2

又比如:

【ML 第五节】:机器学习之朴素贝叶斯算法

在接受到的一封邮件里,有很多个垃圾词汇,有股票、培训、投资、理财等等。我们对收到的邮件进行分词操作之后,假设垃圾词汇之间独立,那么 P(X|H) = P(X1|H)*P(X2|H)*……*P(Xn|H),这样就是贝叶斯公式重写后的式子。

由于对所有类别来说 P(X)相同,那么根据贝叶斯判定准则有:

【ML 第五节】:机器学习之朴素贝叶斯算法

这就是朴素贝叶斯分类器的表达式。因此,朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率 P(C),并为每个属性估计条件概率 P(Xi|c)


数智 Lab , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:【ML 第五节】:机器学习之朴素贝叶斯算法
喜欢 (3)
[]
分享 (0)
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址