(李向东)用数据说话,说真话、说管用的话

  

今天我想和大家分享一些数据分析的基本思想。 我用数据说话来命名它。 内容全是个人经历,比较粗浅! 如有不足之处还望大家谅解! 话不多说,让我们开始吧。

用数据说话,就是用真实的数据说话! 真实也可以理解为求真务实。 那么,数据分析就是一个不断求真务实的过程! 用一句话来表达就是用数据说话,用真实的数据说话,说实话,说实话,说有用的话。

1.让数据说话

数据不会说话,但面对不同的人,它会发出不同的声音。 现在我们就以“荒岛卖鞋”这个老故事为例,从数据分析的角度解读一下,看看能否开出新花? 为了不让大家产生案例疲劳,我会尝试用新的表达方式来罗嗦故事!

据说,郭靖和杨康是成吉思汗派到美丽的桃花岛拓展射雕牌运动鞋市场的。 郭靖和杨康一到桃花岛,就惊奇地发现这里的居民,无论男女老幼,全都光着脚,没有人穿鞋。 杨康见状,深吸了一口气,道:唉! 完了,没市场了! 郭靖不以为然,立即拿出新手机,给铁木真打了长途漫游举报电话。 面对桃花岛的空白市场,郭靖在电话中表示:“桃花岛人口多,但信息少,现在岛上居民都是赤脚的,运动鞋市场没有竞争对手。在广阔的桃花岛蓝海,市场将为我们主宰!多欢乐,多欢乐!” 这个时候我们就去现场做一下调查。 如果你是成吉思汗,你会选择什么? (Y1 人投资,N1 人不投资。)

这时候,杨康听不下去了,立即抓起电话说道:“汗,你别听郭靖胡说!市场虽然没有竞争,但并不一定就是蓝海。”在全球竞争的背景下,让我们找到蓝海是那么容易,你觉得可能吗?阿迪达斯、耐克、彪马、锐步等国际巨头都只是固守着找不到吗?我想,这一定是岛上几百年不穿鞋的问题了,短期内是无法改变的,所以各界英雄只能止步了!可惜了,可惜了!” 听完杨康的讨论,铁木真该如何选择呢? 请伸出双手。 (Y2的人愿意投资,N2的人不愿意投资。)姜老了,辣! 成吉思汗比较理性。 他只是说:“继续研究,让数据说话!” 然后挂了电话!

一周后,杨康率先向BOSS汇报。 不过,他并没有选择打电话,而是发了一封电子邮件。 原因有三:一是全球电信资费太高,需要省钱; 第二,杨康有点小人,他担心郭靖听了他的说法后会抄袭他的想法; 第三,他写了一份详细的调查报告,我在电话里三言两语无法解释。 杨康的调查报告详细记录了他与岛上200名精心挑选的居民的谈话内容,以及他对居民抽样时科学合理的筛查条件。 最终的结论是岛上居民全部(100%)被抓获。 我们以鱼为生,脚常年泡在水里,根本不需要鞋子! 成吉思汗听到这个消息后做了什么? 请继续举手! (Y3的人愿意投资,N3的人不愿意投资。)

成吉思汗有他自己的想法。 此时他并没有做出决定,而是继续等待。 你在等什么? 等待郭靖的结论! 两天后,郭靖终于打来电话。 他在电话里说了三个字:“这个市场可以开放!原因是岛上的居民每周都要上山砍柴,十有八九会被砍脚!什么?”更可喜的是,这两天他用美男子的计划吸引了岛主的女儿黄蓉,黄蓉已经答应代言射雕神鹰球鞋了! 在故事的这个阶段,我请大家做最后的陈述。 (Y4的人愿意投资,N4的人不愿意投资。)

好的! 数据在变化,我们的决策也在变化。 不过,成吉思汗比我们理性多了。 答案依然是一句话,但比第一次多了几个字:“继续深入研究,用详细数据论证。” 为什么? 这些数据还不够详细吗? 是的! 因为成吉思汗脑子里还有很多疑问。 例如:

1)竞争对手真的从来没有来过吗? 还是经过对方的论证,确实不可行?

2)山上不会有伐木场吧? 如果有伐木厂,居民就不会去山上砍柴了。 到了送柴火到家门口的时候,鞋子就没用了!

3)为什么你每周只上山一次? 不是主要利用太阳能吗?

4)运动鞋的运输成本、营销成本、销售成本是多少? 投资回报率有多高?

5)……

听完这个案例,我想问你一个问题! 从数据分析的角度给您带来了哪些启发? 请注意这里提到的数据分析的角度。 如果你得到启发:铁木真带领的郭靖和杨康并不是1个老人+2个帅哥的组合,而是一个教练团队。 好吧,抱歉! 这不是我们今天讨论的范围。 好啦,在座的各位谁想发表一下自己的看法呢? 暗示性的启示包括:

面对同样的数据,不同的人会说不同的话。

真实的数据并不一定能得出正确的结论。

正确的决策需要足够的数据来支持。

……

本案例涉及数据收集、分析、报告和决策的全过程。 在这个过程中,无论哪个细节出现问题,最终的决定都将是致命的! 因此,质量是数据的生命。 在数据用于决策的整个过程中,必须保证真实有效!

2.让真实数据说话

所谓用真实数据说话,就是先验证数据的真实性再说话! 现实生活中,可以说用错误的数据来夸耀的人有很多。 其中有两个杰出的代表:一个是传说中伟大的中国统计局,另一个是随时准备封锁这封锁那的中央电视台。 我不是废话,因为有数据支持!

2010年1月20日,国家统计局公布2009年全国房地产市场数据。全年平均房价上涨813元/平方米。 多么令人震惊啊! 雷霆尚未过去,雷霆再次降临! 2月25日,国家统计局发布《2009年国民经济和社会发展统计公报》。 数据显示,70个大中城市房屋销售价格上涨1.5%。 好雷啊! 难怪网友票选统计局为大王朝娱乐之王!

此话一出,央视不同意! 俗话说,中国统计娱乐至上; 如果央视不出现,谁能与之抗衡? 我们来仔细看看央视的数据。 2010年2月15日,中央电视台发布虎年春晚满意度报告。 结果显示,满意度为83.6%。 几乎同一天,新浪发布的调查结果为14.55%; 几天后,腾讯也发布了满意度数据,结果为10.48%。 数据一出,网友批评声不断,此起彼伏,一波又一波。 但央视就是央视,周围有几千敌军,所以我依然坚定不移。 更夸张的是,央视不但假装视而不见、充耳不闻,还继续无耻地在自己的频道上炫耀数据,自娱自乐。 央视数据出了什么问题? 我们先来看看央视的调查方式。

央视的调查结果来自央视索弗里媒体研究有限公司。索弗里称,他们的电视观众满意度调查样本覆盖全国30个城市,总样本框达3万人。 央视春晚满意度调查从这3万人中随机抽取了2122人进行调查。 这样看来,严格来说,所谓的83.6%的满意率只能代表3万人的意见。 当然,如果我用这个说法去跟央视争辩,对方一定能拿出三万人代表全国的理论证据。 具体来说,先从2000外推到30000,然后用30000外推到30个城市,再从30个城市外推到全国所有城市,最后外推到全国。 这里采用简单随机抽样、分层抽样和典型抽样。 简而言之,仍然是多阶段抽样。 多么冠冕堂皇的理论基础啊! 然而,即使每一步都能保证90%的可靠性,经过四次外推后理论的可靠性也只有65%。 遗憾的是,最后一步利用城市向全国扩散还存在理论上的障碍,因为我们不知道如何用45%的城镇居民来代表55%的农村人口?

说完有代表性的问题,我们再来看看调查方法。 索弗里采用了电话调查的方式,时间选择在春晚直播的几个小时内。 据称,调查从晚上8点30分开始,一直持续到春晚结束。 大汗啊! 8点30分,看来90%的节目还没有演完。 如何调查观众对整个春晚的满意度?

央视的数据经不起推敲! 那么,新浪和腾讯就一定是对的吗? 不必要。 这两个数据只能代表新浪用户和腾讯用户对春晚的满意度。 他们最多可以代表4亿网民。 如果要表达13亿中国人民的心声,可能是我们力所不及的。

欣赏完统计局和央视给我们开的两个新年笑话后,我们自己也应该反思一下,在我们的日常工作中,从数据的收集、提取、整理到分析、发布的一系列过程中,并且使用时,数据是否有失真? 数据自始至终是否完整、准确,统计口径与分析目的高度一致吗? 这个问题就留给大家在日常工作中思考。

3、说实话,说实话

如果数据错误,你肯定无法得出正确的结论。 那么当面对真实的数据时,我们一定能得出正确的结论吗? 不必要! 让我告诉你一个小笑话。

问:你只有10平米的房子,而你邻居的房子从90平米变成了190平米。 您的居住面积增加了吗?

答:不。

解:错了,你们两家的平均居住面积是100m2,你们的居住面积在不知不觉中已经增加了!

这个浑然不觉的人是谁? 平均无敌! 仔细想想,这个均值计算是不是错了? 不! 所以有什么问题? 单一的统计数据是片面的,所以如果想要反映数据的真实面目,就必须使用一系列的统计数据。

让我再举一个气候例子来说明当结构严重失衡时使用平均值的可怕之处。 我们大中国面积有960万平方公里。 同时,可能会刮风、下雨、炎热。 去年冬天到今年春天,北方大雪纷飞,南方百年大旱。 近期,南方多省市河流决堤,两岸村庄倒塌。 北方,烈日当空,干旱炎热。 伙计,热得难以忍受。 如果计算全年或全国的平均降雨量,计算出来的结果肯定是中国风调雨顺,国泰民安,但事实上,中华民族饱经风霜,多灾多难!

幸运的是,统计学家不仅给我们平均值,还设计了许多其他统计数据。 看看下表。

衡量数据集中趋势的统计量基本上有三种:均值、中位数和众数。 均值是数值平均值,容易受到极值的影响。 也就是说,如果数据的跨度或极差不大,均值就能很好地反映真实情况。 但如果数据差异比较大,单用平均值就会闹出新的笑话。 中位数和众数属于位置平均数。 中位数就是将数据从小到大排序时正好位于中间的数字。 众数是出现最频繁的数字。

除了中心趋势之外,数据还具有离散趋势。 反映离散趋势的统计量主要包括方差、标准差、极差、变异系数等。方差是观测值与均值之差除以自由度的平方和。 自由度一般为n或n-1。 使用 n 表示总体数据,使用 n-1 表示采样数据。 标准差是方差的正平方根,这意味着它消除了量纲的影响。 极差是最大值与最小值的差值,反映了观测值的跨度范围。 另一个重要且常用的参数是变异系数,它是标准差与平均值的比值。 目的是消除数量级的影响。

另外,还有一些描述数据分布的统计数据,比如分位数,包括四分位数、八分位数、十分之一等。第二个四分位数是中位数,它反映了一系列数据中某些关键位置的分布情况。 数值。 频数分布是对数据进行分组或分类后各组或类型所占的百分比。 偏度是分布的不对称性或偏斜度的度量,峰度是分布的集中度或分布曲线的锐度的度量。

如果想深入的话,就会用到相关系数、置信度、统计指标等。相关系数是反映变量之间线性相关程度的指标。 取值范围为[-1, 1]。 大于0表示正相关,小于0表示负相关,等于0表示不相关。 置信度是指总体参数值落在样本统计值一定范围内的概率。 统计指数是通过使用相同的衡量因素来比较一些不能直接比较的指标,例如共同价格指数、上证综合指数等。

有了这些基本的统计数据,只要我们在实际工作中精心选择,就可以更加准确地描述数据的真实情况。

4. 说一些有用的话

说有效,就是要深入剖析数据的本质,挖掘数据的内涵,而不是停留在数据的表面,讲大话、空话或者陈词滥调。 这就要求在分析数据时,首先明确分析目的,其次选择合适的方法,最后得出有用的结论。 通俗点讲,说有效的话,就是不说废话、少说废话!

4.1 明确分析目的

这里我们举一个例子。 当我想到这个例子的时候,正好是7月7日。 N年前的那一次,正好是这里大家高考的日子,所以我编了一个关于高考的数据。

虽然我们班的成绩很差,总分800分,平均分只有486分,但人才辈出,个个名字都比较出名,比较受欢迎。 我们先来认识一下吧。 有关东学者卢庆侯,读四书五经,博学多才; 有科比·布莱恩特,篮球场上进攻犀利、防守严密的小飞侠; 有出色的克里斯蒂亚诺·罗纳尔多; 还有喜欢以烟熏妆、蓝丝袜、高跟鞋出现在镜头前的异装癖刘竹; 有亿万网友崇拜的春歌党领袖李宇春; 还有经常拿着吉他哼着羊叫声的90后。 曾轶可MM; 还有自称天真、妖媚、性感,擅长爆炸舞步的芙蓉姐姐; 还有罗玉凤,重庆怪女人,清华北大经济学硕士,还没结婚,谁能当奥巴马!

根据学生的考试成绩,不同的人会关注不同的方面。 高考阅卷老师都会关心试卷的相似度。 测试作者将测试试卷的信度和效度。 研究文科和理科的专家会计算文科和理科分数之间的相关性。 程度。 但对于普通中学来说,他们通常只关心两个方面。 第一个是学生表现,计算入学率; 二是教学水平,对优秀教师给予奖金。 如果高中教研室在这里学文理那就是胡说八道,如果还要求进行问卷的信效度检验那就胡说八道了。

关于学生:

卢秀才:总分722分,位列全班第一,平均分90分以上。 如果把其他学员的水平比作三层楼的话,陆秀才应该是站在赛格上面! 天才,上清华北大没问题。

科比和C罗:总分550左右,平均不到70分! 他在班上排名第二、第三,成绩确实不怎么样,但在班里还是很出众的。

刘柱、李宇春、曾轶可:成绩差,上学绝对不是他们的出路! 由于平时性格怪异,其中一个男孩看起来像女孩,一个女孩看起来像男孩,还有一个看起来像一只羊。 我建议你不要走普通的高考道路,而是去湖南卫视选秀节目。

凤姐和芙蓉:这个结果说明你们是弱智。 我猜你的头要么被门挤了,要么被驴踢了!

关于老师:

衡量教师素质需要剔除异常值,而陆秀才就是! 卢秀才成绩异常优异,个人素质极高,因此他的成绩不应该作为衡量教师素质的样本。

汉语的均值高,变异系数小! 由此可见语文老师真是一位好老师! 是时候发奖金了!

同样的道理,历史老师也不错! 也应该给予适当的奖励。 至于物理老师,他太糟糕了,需要尽快更换。 决不能允许他继续误导学生!

这个人是英语老师。 英语成绩的均值较高,但变异系数较大。 这表明数据中可能存在极值。 可能的异常值是科比和罗纳尔多。 科比是美国人,天生擅长外语! C罗是葡萄牙人,但他从2003年到2009年一直在英国留学,6年,所以他的英语应该不错! 因此,科比和C罗的英语成绩并不能算是英语老师培养出来的,所以科比和C罗属于异常值,应该被淘汰。 那么,排除掉异常之后,你会发现英语的平均分只有47分! 说明英语老师算不上好老师,只能错失奖金!

4.2 选择合适的方法

就拿上面的例子来说吧。 如果我们是研究高中是否应该分文理科的相关部门,那么我们应该如何分析文理成绩之间的相关性呢?

例1:如何计算文科与理科的相关性。

目前基本有三种方法,一是简单相关分析,二是典型相关分析,三是潜变量相关分析。

简单相关分析就是通过求和计算文科成绩和理科成绩之和,然后计算两者之间的简单相关系数。

典型相关分析主要用于衡量两组变量之间的相关性。 其基本原理是:为了从整体上把握两组指标之间的相关性,从两组变量中提取相关系数最大的一系列典型变量,然后每对典型变量之间的相关性为计算出来的。 ,反映变量之间的相关程度。

潜变量相关性是计算潜变量之间的相关系数。 所谓潜变量是相对于显变量或测量变量而言的。 潜变量是指在实际工作中无法直接测量的变量,包括相对抽象的概念和由于各种原因而无法准确测量的变量。 一个隐变量通常可以有多个显变量。 潜变量可以看作是其对应的显变量的抽象和概括,显变量可以看作是特定潜变量的测量指标。 在分析文科与理科的相关性时,我们可以将文科和理科作为潜变量,将语文、外语、政治、历史四个显性变量作为文科的测量指标,将文科和理科四个显性变量作为文科的测量指标。数学、物理、化学和生物学。 如果将每个显性变量视为科学的测量指标,那么文科分数之间的相关性问题就转化为隐变量之间的相关性问题。

所以。 我们应该选择哪种方法? 或者说如果我们同时使用以上三种方法来求相关系数,我们应该选择哪一种呢? 例如,我们的计算结果是0.35(简单相关)、0.85(最大典型变量)和-0.65(潜在变量相关)。 这个时候我们应该相信哪些数据呢?

事实上,我更愿意相信简单相关计算的结果。 原因如下:

1.简单且相关,简单易懂。

2、典型相关性的取值范围是[0, 1],其计算的结果没有正负值,只有大小。 这与我们的实际研究目的相悖。 我们想知道学生在文科课程中是否得到均衡的发展。 所谓平衡就是正相关,所谓不平衡就是负相关。 典型的相关性无法做到这一点。

3.虽然潜变量相关性的取值范围为[-1.1],但大多采用主成分法来拟合潜变量,而根据方差提取最大主成分的过程似乎与我们的分析。

4、最重要的是,其实简单求和和典型相关、主成分相关的思路是一样的,都是先把多个变量拟合成一个(或几个)变量,然后分析拟合后的变量之间的关系。 相关性。 事实上,当尺寸和大小相同且重量易于计算时,最简单有效的拟合就是相加! 所以我认为通过简单求和计算出来的相关系数是最有效的。 当量纲或量级不同时,潜变量和典型变量是衡量多个变量之间相关性的有效方法。

示例 2:计算硬币正面和反面的概率

最后我给大家出一道选择题。

问:如果一枚硬币连续出现 10 次正面,那么第 11 次出现正面的概率是多少?

选项:A. 接近 0% B. 50% C. 接近 100% D. 以上答案都不正确

一枚硬币正面抛10次的概率是0.510,绝对是小概率事件。 在实验中,如果发生小概率事件,那么我们应该拒绝零假设。 什么是原假设? 硬币正面或反面朝上的概率是 0.5。 因此,我们可以大胆推断,这枚硬币本身就是一枚正反两面都是正面的硬币,那么第11次正面朝上的概率就是100%,或者说接近100%。 有人有异议吗?

每个人都应该同意这样一个结论:如果树上有 10 只鸟,用猎枪一枪打死 0 只鸟,树上就会剩下 0 只鸟。 因为我们考虑的是实际问题,不是10-1=? 数学公式。 所以大家在幼儿园的时候就知道,一声枪响之后,树上就不会剩下一只鸟了。 想象一下,您和您的朋友在抛硬币后押注正面或反面。 如果你的朋友在 10 次之后向你抛头,你会怎么想? 兄弟,你口袋没钱了,硬币肯定有问题! 我相信你提这样的问题不会超过10次。 说到计算概率,0.5是没有问题的。 独立事件发生的概率不会因先前的情况而改变。 但是,如果我们用假设检验的思想,100%的结论会更加合理。 0.5的结果之所以错误,并不是你的计算错误,而是你在解决实际问题时,太教条主义,太书生气了,从而选择了错误的方法。

5. 最后总结

分享结束了,大家听了都笑了,但是笑完之后,一定要记住我讲了一个小时的这句话:用数据说话,就是用真实的数据说话,说真话,说真话,说实话有用的东西!

 

标签:变量   系数   平均   概率   衡量

文章来源:人力资源和社会保障

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.luzai.cnhttp://www.luzai.cn/html/276155.html