加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜新站长网 (https://www.0418zz.com.cn/)- 管理运维、AI硬件、数据集成、云备份、负载均衡!
当前位置: 首页 > 站长资讯 > 动态 > 正文

严格把控功能选择

发布时间:2021-05-04 14:34:07 所属栏目:动态 来源:互联网
导读:全力以赴地进行特征工程是很好的做法,但同样重要的是要记住,过多的数据会让模型不堪重负,给学习重要内容带来困难。精确判断哪些特征要留存,又有哪些特征要剔除,可以对模型大有裨益。 通常,删除列时要尽量保守一些。数据不可多得,所以只有当你确定数据

全力以赴地进行特征工程是很好的做法,但同样重要的是要记住,过多的数据会让模型不堪重负,给学习重要内容带来困难。精确判断哪些特征要留存,又有哪些特征要剔除,可以对模型大有裨益。

通常,删除列时要尽量保守一些。数据不可多得,所以只有当你确定数据不会有什么用处时,才可以把它删除。

  • 仔细观察数据。特别是有很多分类变量的时候,可能会有多余的列出现。例如,比赛中偶尔会有“对照组”样本的目标总是0,去掉这一数据往往会更好。
  • 获取信息。你可以计算每个特征对最终模型的预测提供的信息增益,然后删除几乎不提供任何信息的特征。
  • 方差阈值。这是吸引力较小的信息增益版本(但有时更实用),计算每一列的方差,并删除方差小的列(做必要的缩放后)。
  • 特征降维。若出现较多高度相关的特征,那么使用降维的特征可能会有帮助。一般需要尽量不删除而只是减少那些不太“重要”的特征。如此一来,你仍能保留该有的信息。

(编辑:阜新站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读