在特征选择中,有三类常用的指标:信息增益;信息增益率;和基尼系数。这些指标也是决策树算法的基础。现摘录这三个指标的定义如下:
信息增益(Information Gain)
特征\(T\)为分类系统\(C\)带来的信息增益为:
\[\begin{aligned}
GainEntropy(T) &= Entropy(C) − Entropy(C|T) \\
&= Entropy(C) − \sum_i{p(T_i)Entropy(C|T_i)} \\
\end{aligned}\]
其中,\(Entropy(C)\)为系统关于分类属性\(C\)的信息熵,定义了系统描述某一个分类所需要的平均信息量。计算公式为:
\[Entropy(C) = -\sum_i{p(C_i)\log_2{p(C_i)}}\]
\(Entropy(C|T_i )\)为固定特征\(T=T_i\)下系统关于分类属性\(C\)的条件信息熵,计算公式为:
\[Entropy(C|T_i) = -\sum_j{p(C_j|T_i)\log_2{p(C_j|T_i)}}\]