博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
特征选择之卡方检验
阅读量:5905 次
发布时间:2019-06-19

本文共 1256 字,大约阅读时间需要 4 分钟。

  特征选择的常用方法之一是卡方检验,作为一个filter model的代表,卡方检验属于简单易计算的Feature weight algorithm(通过一定的measure方法给特征赋上一定的weight来表征与类别之间的相关度,通过weight大于一定阈值或选取topk个weight来进行特征选择)。卡方检验和信息增益是feature weight algorithm常用且效果较优的算法。

 

  卡方检验是概率论与数理统计中常用的假设检验的思想:通过观察实际值和理论值的偏差来确定原假设是否成立。首先假设两个变量是独立的(此为原假设),然后观察实际值和理论值之间的偏差程度,若偏差足够小,则认为偏差是很自然的样本误差,接受原假设。若偏差大到一定程度,则否则原假设,接受备择假设。

  关于卡方检验的思想和例子,可参考:http://blog.csdn.net/fty8788/article/details/8156723

  上文中提到的例子:考察attribute词 “篮球”和类别“体育”的相关性,计算偏差的卡方值,进行特征选择。这里不再赘述。

  

++++++++++我是分割线++++++++++

理解卡方检验:

使用卡方检验时,简单代入公式即可。简单复习了一下假设检验的知识(都还给老师了,实在对不住自己……),简单总结如下,有不对之处感谢指正:

卡方检验使用的是单个分布的卡方检验拟合法:

对篮球的有无和体育是否这两对值分离时,假设两个是独立的,即篮球在四中情况下的分布概率(用频率近似概率)分别为:A+B/N  A+B/N   C+D/N C+D/N

对篮球的分布是否符合上述假设进行检验:

chi2 = sum(1 to k) n/pi (fi/n - pi)^2 ~chi(k-1)分布

公式左边简化得到:

chi2 = sum(1 to k) (fi - npi)^2 / npi = sum(1 to k) (fi - E)^2 / E ~chi(k-1)

于是,卡方检验的公式由此得到。

对以上假设进行检验时,相关了一个显著水平siglevel。显著水平表示当原假设成立时拒绝原假设的概率,是一个小概率事件的概率。

对上述例子,if chi2 >= chi2(siglevel) 拒绝原假设,或可表示为P(chi2 >= G) = siglevel

减少siglevel,即拒绝原假设的概率变小,G变大,即对chi2的阈值变高,必须出现一个很大的偏差才能拒绝原假设。因此可以通过调节siglevel调整拒绝原假设的卡方阈值。

 

++++++++++++碎碎念+++++

概率论博大精深,大一上课单纯以为这只是数学知识,拿来算算概率就可以了。完全没意识到高数、概率论和线性代数与码农千丝万缕的联系,

把教材都买回来了,希望有一天能融为一体,游刃有余吧。2014,小小加油。

 

 

转载于:https://www.cnblogs.com/changxiaoxiao/p/3522144.html

你可能感兴趣的文章
传值引用和调用引用的区别
查看>>
hyper-v 无线网连接
查看>>
Python3.7.1学习(六)RabbitMQ在Windows环境下的安装
查看>>
Windows下memcached的安装配置
查看>>
ubuntu: firefox+flashplay
查看>>
web.xml 中CharacterEncodingFilter类的学习
查看>>
贪吃蛇逻辑代码
查看>>
ASP.NET视频教程 手把手教你做企业论坛网站 视频教程
查看>>
[LeetCode] Meeting Rooms II
查看>>
从Swift学习iOS开发的路线指引
查看>>
Scribes:小型文本编辑器,支持远程编辑
查看>>
ssh 安装笔记
查看>>
3-继承
查看>>
海归千千万 为何再无钱学森
查看>>
vue2.0 仿手机新闻站(六)详情页制作
查看>>
JSP----九大内置对象
查看>>
Java中HashMap详解
查看>>
delphi基本语法
查看>>
260. Single Number III
查看>>
Hadoop生态圈-Kafka的完全分布式部署
查看>>