加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜新站长网 (https://www.0418zz.com.cn/)- 管理运维、AI硬件、数据集成、云备份、负载均衡!
当前位置: 首页 > 大数据 > 正文

数据科学之基石:数据科学家必须掌握的10个统计学概念

发布时间:2021-06-04 11:27:10 所属栏目:大数据 来源:互联网
导读:数据科学是一个跨学科领域,其基石之一是统计学。如果没有足够的统计知识,就很难理解或解释数据。 统计学帮助解释数据。我们使用统计学方法,根据从某个总体中抽取的样本,推断出该总体的结果。此外,机器学习和统计学也有很多交叉。要成为一名数据科学家,
数据科学是一个跨学科领域,其基石之一是统计学。如果没有足够的统计知识,就很难理解或解释数据。
统计学帮助解释数据。我们使用统计学方法,根据从某个总体中抽取的样本,推断出该总体的结果。此外,机器学习和统计学也有很多交叉。要成为一名数据科学家,就需要学习统计学及其概念。本文将具体解释10个基本的统计概念。
 
1. 总体与样本
总体是一个群体中的所有元素。例如,美国的大学生是包括美国所有大学生的总体。在欧洲25岁的人是一个总体,该总体包括所有符合该描述的人。
由于我们不能收集一个总体的所有数据,因此对总体进行分析有时是不可行或不可能的,因此,可以借助样本进行分析。样本是总体的一个子集。例如,1000名美国大学生是“美国大学生”总体的一个子集。
2. 正态分布
概率分布是表示事件或实验结果概率的函数。考虑数据帧中的一个特性(即列)。这个特征是一个变量,它的概率分布函数显示了可以取值的区间。
概率分布函数在预测分析或机器学习中非常有用。我们可以根据某个总体样本的概率分布函数来预测该总体。
正态(高斯)分布是一个概率分布函数,看起来像一个钟型。下图显示了典型正态分布曲线的形状。
 
曲线的峰值表示变量最可能采用的值。离峰值越远,取该值的概率就越小。
3.量度集中趋势
中心趋势是概率分布的中心值(或典型值)。最常用的中心趋势度量是平均数、中位数和众数。
· 平均数是一列数值的平均值。
· 中位数是按升序或降序排序时中间的值。
· 众数是最常出现的值。
4.方差与标准差
方差是值之间变化的度量。它的计算方法是求每个值和平均值的平方差,然后将这些平方差相加,最后将总和除以样本数。
 
标准差是衡量数值分布的一种方法,它是方差的平方根。
5. 协方差和相关性
协方差是一种定量方法,它表示两个变量的变化在多大程度上相互匹配。更具体地说,协方差以其平均值(或预期值)来比较两个变量的偏差。
下图显示了随机变量X和Y的一些值。橙色点表示这些变量的平均值。这些值的变化与变量的平均值类似。因此,X和Y之间存在正值协方差。

(编辑:阜新站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读