• Home
  • Navigate
  • Archives
  • Resources
  • About
  公子天的网络日志
  • HOME
  • Archives
  • ABOUT
  • 研究笔记
  • 技术手册
  • Geek心得
  • 生活日志

特征选择中的常用指标

在特征选择中,有三类常用的指标:信息增益;信息增益率;和基尼系数。这些指标也是决策树算法的基础。现摘录这三个指标的定义如下:

  1. 信息增益(Information Gain)
    特征\(T\)为分类系统\(C\)带来的信息增益为:
    \[\begin{aligned}
    GainEntropy(T) &= Entropy(C) − Entropy(C|T) \\
    &= Entropy(C) − \sum_i{p(T_i)Entropy(C|T_i)} \\
    \end{aligned}\]
    其中,\(Entropy(C)\)为系统关于分类属性\(C\)的信息熵,定义了系统描述某一个分类所需要的平均信息量。计算公式为:
    \[Entropy(C) = -\sum_i{p(C_i)\log_2{p(C_i)}}\]
    \(Entropy(C|T_i )\)为固定特征\(T=T_i\)下系统关于分类属性\(C\)的条件信息熵,计算公式为:
    \[Entropy(C|T_i) = -\sum_j{p(C_j|T_i)\log_2{p(C_j|T_i)}}\]

Read more   2016/9/14 posted in  研究笔记-其他

公子天的网络日志

Make a Difference
LinkedIn Twitter GitHub RSS

Categories

研究笔记 技术手册 Geek心得 生活日志

Recent Posts

  • PRML读书笔记——线性回归模型(下)
  • CS224N NLP with Deep Learning: Lecture 1 课程笔记
  • PRML读书笔记——线性回归模型(上)
  • 五月份目标规划
  • 深度学习开发环境搭建教程(Mac篇)

Copyright © 2015 Powered by MWeb,  Theme used GitHub CSS.