您现在的位置:首页>>新闻中心>>行业新闻
新闻中心

数据库专家都应该知道的5个统计学知识

实际上,数据科学可以定义为我们从数据中获取附加信息的过程。我们在进行数据科学时真正想要做的是解释除数字之外的现实世界中所有数据的实际含义。


为了提取复杂数据集中隐藏的信息,数据科学家采用了多种工具和技术,包括数据挖掘、数据可视化和数据建模。统计是数据挖掘中常用的一种非常重要的数学技术。


在实际应用中,统计学允许我们定义具体的数据数学摘要。我们可以使用统计信息来描述其中的一些属性,而不是试图描述每个数据点。这通常足以提取一些关于数据结构和组成的信息


有时候,当人们听到“统计”这个词时,他们往往会想到一些过于复杂的事情。这可能有点抽象,但我们不必总是借助复杂的理论来从统计中获得一些价值。


统计最基本的部分通常是数据科学最实际的部分。


今天,我们将分享五种对数据科学有用的统计方法。这些不是过于抽象的概念,而是相当简单且具有长期适用性的技术。


集中趋势


数据集或特征变量集中的趋势是集合的中心值或典型值。这个想法是,可能有一个单一的值,最好地描述我们的数据集(在某种程度上)。


例如,假设您有一个以x-y位置为中心的正态分布(100,100)。然后,点(100,100)是一个集中趋势,因为它提供了所有替代点之间数据的最佳摘要。


对于数据科学,我们可以使用集中趋势快速简单地测量,以了解我们数据集的整体情况。我们数据的“中心”可能是非常有价值的信息,告诉我们数据集是如何有偏差的,因为数据周围的任何值都具有内在的偏差。


在数学中有两种常用的选择趋势的方法。


平均数(Mean)


平均值是数据集的平均值,是整个数据传播的数字。定义平均值时,用于计算平均值的所有值的权重相等。


例如,计算以下5个数字的平均值:


(3+64+187+12+52)/5=63.6


平均值非常适合计算实际数学平均值,使用像Numpy这样的Python库也非常快。


中值的


中间值是数据集的中间值,也就是说,我们将数据从最小值排序到最大值(或从最大值排序到最小),然后取集合的中间值:即中值。


计算前一个例子中5个数字的中位数:


[3,12,52,64,187]→ 52


中值与平均值完全不同。他们不是对是错,但我们可以根据自己的情况和目标来选择。


计算中位数需要对数据进行排序 - 如果数据集很大,这可能有点不切实际。


另一方面,离群值的中位值比平均值更稳健,因为如果有一些非常高的离群值,平均值会被拉向一个方向。


平均值和中位数可以用简单的麻木的单线来计算:


numpy.mean(array)


numpy.median(array)


二,传播(传播)


从统计学上讲,数据扩散指的是索引数据压缩到一个或多个值的程度,这些值分布在更大的范围内。


参考下面的高斯概率图假设这些是描述现实世界数据集的概率分布。


蓝色曲线具有最小的扩散值,因为其大多数数据点都在相当窄的范围内。红色曲线具有最大的扩散值,因为大多数数据点占用更大的范围。


图例还显示了这些曲线的标准偏差,将在下一节中介绍。


标准偏差


标准差是量化数据扩散程度的最常用方法。计算标准偏差需要5个步骤:


找到平均数。


对于每个数据点,查找它与平均值之间距离的平方。


对步骤2中的值求和。


除以数据点的数量。


取平方根。


5数据科学家应该知道的统计知识


值越大,我们的数据从平均值“扩散”的程度就越高。值越小,我们的数据就越关注平均值。


计算麻木的标准偏差:麻木。std(射线)


三,百分位数(百分位数)


我们可以用百分位数来进一步描述每个数据点在整个范围内的位置。


百分位数根据数据点在值范围内的位置描述数据点的确切位置。


更正式地说,第p百分位数是数据集中的值,在该值处数据集可以分成两部分。下半部分包含p%数据,称为第p百分位数。


例如,以下11个数字的集合:


1,3,5,7,9,11,13,15,17,19,21


数字15是70百分位数,因为当我们把数据集分为两个部分在数字15,有70个数据少于15。


百分位数与均值和标准差的组合使我们很好地了解特定点在数据集的范围/范围内的位置。如果是异常值,其百分位数将接近终点 - 小于5%或大于95%。另一方面,如果百分位数接近50,那么我们就可以知道它非常接近浓度趋势。


数组的第五十个百分位数是以numpy:numpy计算的。百分位数(数组,50)


第四,Skewness


数据的偏差衡量其不对称性。


偏度为正,表示该值集中在数据点中心的左侧,而负偏度表示该值集中在数据点中心的右侧。


下图提供了一个很好的例子。


我们可以使用以下等式计算偏度:


挠度使我们知道数据分布与高斯分布之间的距离。坡度越大,我们的数据集离高斯分布越远。


这很重要,因为如果我们对数据的分布有一个大概的了解,我们就可以定制我们想要针对特定分布进行训练的ML模型。此外,并非所有ML建模技术对非高斯数据都有效。


同样,在我们开始建模之前,统计数据可以给我们提供非常有洞察力的信息!


如何计算sipy代码中的偏差:跳过。)(倾斜)


5.协方差和相关系数(相关)


协方差


两个特征变量的协方差度量它们之间的相关性。如果两个变量的协方差为正,另一个将随着一个变量的增加而增加,当协方差为负时,特征变量的值将向相反的方向变化。


相关系数


相关系数只是标准化(尺度)的协方差,除以所分析的两个变量的标准差的乘积。这实际上迫使关联范围保持在-1.0和1.0之间。


如果两个特征变量的相关系数为1.0,则两个特征变量的相关系数正相关。这意味着如果给出变量的变化量,则第二个变量将按比例移动到相同的方向。


用于降维的PCA图解


当正相关系数小于1时,正相关系数小于完全正相关系数,相关系数随接近1的次数增加。相同的思想适用于负相关性,只是特征变量的值在相反方向上而不是在同一方向上发生变化。


理解相关性对于降维技术(如主成分分析(PCA))非常有用。我们首先计算相关矩阵 - 如果两个或多个变量高度相关,它们在解释我们的数据时实际上是多余的,并且可以移除其中一些以降低复杂性。


中安威士:保护核心数据,捍卫网络安全


来源:网络收集



Copyright © 2016 中安威士(北京)科技有限公司 版权所有 京ICP备14001844号-1