数据科学家必备技能
2)数据预处理:了解数据预处理同样至关重要,与其相关的主要概念如下: a) 处理缺失数据 b) 数据重建 c) 处理分类数据 d) 在处理分类问题时对类别标签进行编码 e) 各种特征转换技术与降维方法,例如主成分分析法(PCA)、线性判别分析法(LDA) 4. 数据可视化一个合格的数据可视化应具备以下几点: a) 数据类型:在决定如何对数据进行可视化处理时,首先要了解数据的类型,比如它是分类数据、离散数据、连续数据、时序数据,还是其它种类。 b) 几何图形:需要根据数据类型选择合适的可视化方法,具体包括散点图、曲线图、条形图、直方图、qqplot图、密度图、箱形图、pairplot多变量图,以及热图等。 c) 映射:需要分别选择X轴与Y轴的变量。如果要分析的数据是一个包含多种特征值的多维数据集,那么这一步就尤为重要。 d) 标度:需要选择使用何种标度,例如线性标度或者对数标度。 e) 标签:此时所使用到的标签主要包括坐标轴、标题、图例、字号等。 f) 伦理道德:必须确保该可视化方法能够阐述事实。在对数据进行清理、总结,最后进行可视化处理过程中,必须注意自己的每一步操作,从而确保最终结果真实可靠,不会误导读者。 5. 基本的机器学习技能机器学习是数据科学的一个重要分支,因此了解机器学习框架同样至关重要,比如问题框架、数据分析、建模、测评,以及模型应用。如果想要进一步了解机器学习框架,请点击此处:《机器学习过程》。
(1)监督学习(连续变量预测) a) 基本回归分析 b) 多维回归分析 c) 正则化回归 (2)监督学习(离散变量预测) a) 逻辑回归分类器 (编辑:阜新站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |