加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜新站长网 (https://www.0418zz.com.cn/)- 管理运维、AI硬件、数据集成、云备份、负载均衡!
当前位置: 首页 > 站长资讯 > 动态 > 正文

完美无缺的特征工程

发布时间:2021-05-04 14:31:30 所属栏目:动态 来源:互联网
导读:如果说我从这次比赛中学到了什么,那就是特征工程是关键。简单来说,特征工程就是提取已有特征并不断添加新的特征,这可以是简单的将两列相乘。 在常用的机器学习方法中,神经网络可视为神奇的万能方案,据说神经网络可以从数据中学习任何东西。不过事实并非

如果说我从这次比赛中学到了什么,那就是“特征工程是关键”。简单来说,特征工程就是提取已有特征并不断添加新的特征,这可以是简单的将两列相乘。

在常用的机器学习方法中,神经网络可视为神奇的万能方案,据说神经网络可以从数据中学习任何东西。不过事实并非如此,大多数时候,一个模型要想通过数据学习的话,还需要人类从旁协助。

模型的优劣取决于数据的好坏,最好提供尽可能多的信息让原始数据有意义。对特征工程有帮助的两个观点:

  • 主成分分析法/特征降维。我们常说"这些都是数据中最重要的结构因素",并为模型设计付出很多时间和心血,因此特征降维是很好的特征工程策略。主成分分析缩减版可以用来替换数据,或者将主成分分析缩减版的特征并联到数据中(可能更成功)。除此之外,局部线性嵌入等流性学习/特征降维算法也同样适用。
  • 添加数据。若多列之间的规模相当,则可以添加简单的数据,如平均值和方差,也可以添加更高阶的数据,如峰度或偏度。例如,数据点之间的方差# of cars moving in Los Angeles,# of cars movingin Santa Monica,# of cars moving in Beverley Hills等等,可以提供有用的信息,来观察天气带来的不同影响。如果方差较小,那么天气对所有城市的影响都非常相似。模型可以对此进行解释,并帮助预测。

特征工程是一门艺术。最重要的是要记住在进行特征工程时要考虑到数据环境。如果数据在现实生活中没有意义(例如将两个彼此没有关系的列相乘),很可能不会帮助模型更好地理解数据。

(编辑:阜新站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读