爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 4503|回复: 1

[经验总结] 机器学习之【朴素贝叶斯分类】理论部分

[复制链接]

新浪微博达人勋

发表于 2022-10-13 18:01:46 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
朴素贝叶斯,是目前使用最广的2种分类模型之一:
1、朴素贝叶斯模型(Naive Bayesian Model=NBM
2、决策树模型(Decision Tree Model=DTM

贝叶斯数学基础简单温习见:贝叶斯公式与核酸检测

1、应用领域

(1)维度非常高的数据集;
(2)为分类问题提供快速粗糙的基本方案;
(3)常用于文本分类,尤其对英语等语言,
(4)垃圾文本过滤,情感预测,推荐系统...

2、优点

  • 数学理论基础坚实;
  • 分类效率稳定;
  • 与其他分类方法相比误判率很低;
  • 对小规模数据表现很好;
  • 算法简单,所需参数少,运行速度快;
  • 算法健壮,对缺失数据不敏感;
  • 适合增量式训练,尤其是数据量超出内存时,可以一批批进行增量式训练。这个特点非常好!就好像克里金插值法支持拼接一样,很nice!
  • 当数据集属性之间的关系相对独立时,效果更好。

3、缺点

  • 对输入数据的表达形式敏感(离散连续、极大值极小值)
  • 分类是通过【先验概率+数据-->后验概率】来实现的,但先验概率很多时候取决于假设,假设准不准是个问题。
  • 如果属性比较多,或相关性较大时,分类效果不好。例如O3与NO2,气温与湿度关联性很大,这就不太好了。改进方法:【半朴素贝叶斯】

密码修改失败请联系微信:mofangbao

新浪微博达人勋

 楼主| 发表于 2022-10-19 09:42:46 | 显示全部楼层
4、【朴素贝叶斯】的通俗逻辑

依据条件概率公式,计算当前特征的样本属于某个分类的概率,选择最大的概率分类。
比如,现在有一个人,我们不知道他是哪个民族的,
我们记录他的肤色、颧骨、腿长、体毛等身体特征,
然后计算相似属性的人在美国、中国、南非、阿拉伯的比例,看哪个概率最大。

5、番外:【零概率问题】-【拉普拉斯校准】

在贝叶斯分类的数学公式中,有个小bug:
有些事件没有发生,概率为0,会导致错误。
[拉普拉斯校准]就是为了fix这种bug的。
(其实,乘法、对数相关的数学模型,常需要对付零这个捣蛋鬼。)
当然,知道有这回事即可,sklearn的贝叶斯算法模型肯定早把这个写进去了。

密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表