内容导入:
大家好,这里是每天的一点分析。 本期为您介绍数据分析的基础系列。 主要介绍描述性统计分析原理和偏度的基本原理,包括偏度的概念、函数??、计算方法、判断标准和应用,并结合地区工资水平。 探索偏度在现实世界数据分析中的使用。 文章内容适合数据分析新手,内容讲解深入浅出,案例实用。 下一期我会给大家介绍一下峰度系数,欢迎大家关注。
概念介绍:
偏度的概念:
偏度是统计数据分布的偏度方向和程度的度量。 它是统计数据分布不对称程度的数值特征。 所谓不对称,就是指左右不一致。 ()又称为偏度、偏度系数。 它是表征概率分布密度曲线相对于平均值的不对称程度的特征数。 直观上来说,就是密度函数曲线尾部的相对长度(不懂也没关系,这是统计定义)。
偏度计算公式:
偏度计算公式
偏度计算为三阶中心距除以三阶标准差。 所谓中心距,就是距数据中心的距离。 数据中心一般是数值数据的平均值,所以中心距就是各个数之和减去平均值。 然后求平均值,三阶就是在此基础上求三次方。 三阶标准差是标准差的三次方,所以这个公式很容易理解。
偏度的相关原理:
正态分布的偏度为0,两侧尾长对称。 如果S代表偏斜度。
S 左偏度。 此时,均值左侧的数据比右侧的数据少。 直观上看,左边的尾巴比右边的尾巴长。 由于少数变量的值非常小,因此曲线的左尾很长。 。
S>0表示分布存在正偏差,也称为右偏度。 此时,均值右侧的数据比左侧的数据少。 直观的表现是,右边的尾部比左边的尾部长,因为取值较大的变量较少。 ,使得曲线的右尾很长。
当S接近0时,可以认为分布是对称的。 如果您知道分布在偏度方面可能偏离正态分布,则可以使用偏差来检验分布的正态性。 向右偏时,一般算术平均值>中位数>众数,向左偏时则相反,即众数>中位数>均值。 三个正态分布相等。
偏度的特点:
如果一组数据是对称的,则偏度系数等于0;
如果偏度系数大于1或小于-1,则称为高偏分布;
如果偏度系数在0.5~1或-1~-0.5之间,则认为是中度偏态分布。
偏度偏差:
偏度系数=0,分布对称;
如果偏度系数>0,则频率分布的峰值向左移动,长尾向右延伸,分布呈正偏态;
偏度系数
偏度的应用:
S>0,数据向左倾斜,峰值向左偏移,长尾向右延伸,均值小于中位数和众数,说明数据量很大,大多数其中高于平均水平,并且存在小的异常值。 ;
数据结论普遍是该地区存在收入最高值,贫富差距较大; 地区发展水平低,多数人收入低于平均水平等。
大家觉得这个理论很无聊。 我们准备了一个介绍偏度的短视频,以缓解您的疲劳并帮助您理解。 如果您有兴趣,可以关注我们的微信公众号观看。
综合应用场景:
接下来我们看一个实际案例。
数据偏度:某地区随机50人的平均工资为
请分析一下该地区的收入水平和发展情况。
代码计算过程
我们可以使用偏度来解释收入水平等条件。 计算过程如下。
numpy 作为 np
=np.array([2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918, 1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564,172,951,1683,888,2880,4000,3500, 1000,1250] )
求平均值 =np.mean()
求中心距=-
求标准差 sigma=np.std()
求平均三阶中心距=sum(np.power(,3))/len()
求标准差的三次方 =np.power(sigma,3)
求数据的偏度=/
print()#数据偏度为:1.424。 偏度系数小于0,因此数据向右偏斜。
根据偏度原理,S>0,数据向左倾斜,峰值向左偏移,长尾向右延伸,且均值小于中位数和众数,说明存在大数据很多,大部分都在平均水平以上,并且有小的异常值; 因此,我们可以得出结论,该地区空间差距较大,且以低收入人群居多,大部分人收入低于平均水平。 可以推测,该地区的区域发展不平衡,发展水平较低,因为在发展水平较高的地区,大多数人应该处于中等水平。
还不明白的朋友可以关注我们的微信公众号观看视频,讲解会更加精彩。
本期就分享到这里,我们每周都会继续更新,下期再见,期待您的光临。
大家好,如果您有什么建议,比如您想了解的知识、内容中的问题、您想要的资料、下次分享的内容、学习中遇到的问题等,请在下面留言。 如果喜欢请关注。
海数据微信小程序
海数据微信公众号二维码