首页 > 试题广场 >

什么是信息熵、信息增益和信息增益比?它们在机器学习中有什么作

[问答题]
什么是信息熵、信息增益和信息增益比?它们在机器学习中有什么作用?
基尼指数是衡量数据集不纯度或分类不平衡程度的指标,常用于决策树的特征分裂(如CART算法)。其核心思想是:从数据集中随机抽取两个样本,它们属于不同类别的概率越低,数据集的纯度越高。 1. 计算公式 对于数据集 D 包含 K 个类别,基尼指数定义为: Gini(D)=1−k=1∑K​pk2​ 其中 pk​ 是第 k 个类别在数据集 D 中的占比。 示例: 假设一个数据集有 10 个样本,其中 6 个属于类别 A,4 个属于类别 B: Gini(D)=1−((106​)2+(104​)2)=1−(0.36+0.16)=0.48 2. 特征分裂时的基尼增益 选择特征分裂时,计算分裂后的加权基尼指数,基尼增益(Gini Gain)越大,分裂效果越好: Gini Gain=Gini(D)−v=1∑V​∣D∣∣Dv​∣​Gini(Dv​) Dv​:按特征某个值划分后的子数据集。 V:特征的可能取值数。 示例: 用特征“年龄”分裂数据集,得到两个子集 D1​(年轻)和 D2​(年长): 若 Gini(D1​)=0.2,Gini(D2​)=0.3,且 ∣D1​∣/∣D∣=0.6,∣D2​∣/∣D∣=0.4: [ \text{Gini Gain} = 0.48 - (0.6 \times 0.2 + 0.4 \times 0.3) = 0.48 - 0.24 = 0.24 ]
发表于 2025-08-29 21:56:29 回复(0)