大数据

赠人玫瑰

<h1> 现在,大数据炒的很热。<br> 什么是“大数据”?</h1><h1><br> 先举一个例子。前几年,马云说过,在中国,浙江女性的胸最小。这个结论是怎么得出的呢?难道他组织人去调查了?不是!他就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。所以得出这个结论。</h1><h1><br> 我们习惯传统思维,讲究因果关系,肚子饿了,吃饭!天气凉了,加衣服!凡事都要问个“为什么”?做事都要问个“怎么办”?没有无缘无故的爱,也没有无缘无故的恨么!</h1><h1><br> 大数据的思维就不是讲究因果关系,而是讲究“相关关系”,就是说,两组数据之间是不是相关?甚至可以计算出它的相关程度,用相关系数表示,还可以进一步计算这个相关系数的显著程度,用显著性表达。</h1><h1><br> 再举一个例子,某一段时间,人们从大数据上发现一个令人惊奇的现象,随着冰激淋销量的增长,淹死的人直线上升,两者的变化几乎完全一致,相关系数达到90%,显著性水平也达到95%以上。这是为什么呢?大家可以思考一下,难道吃冰激淋会导致人们淹死?当然不是了,如果按照因果关系的思维,莽撞地限制冰淇淋的销售,那么非但不会降低溺水人数,由于减少了人们避暑的方式,淹死的人反而会变多。真正的原因是什么呢?是天热了,吃冰激淋的人多了,游泳的人也多了,淹死的人自然就多了。可见,冰激淋销量和溺水人数之间没有因果关系,只有相关性。</h1><h1><br> 社会进步了,传统思维也应该与时俱进,很多时候我们并不能找到事件的原因,而如果强行找原因,往往会适得其反。反之,注重相关性也能解决实际问题。沃尔玛是全世界最大的连锁超市,它的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高两者的销量。为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为买纸尿裤的妈妈更爱爸爸了呢?没人知道。但是啊,这一点不重要了,管它呢。沃尔玛发现了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销量,又便利了顾客。很多顾客赞叹:“沃尔玛居然知道我心里在想什么”,其实沃尔玛不知道。从始至终,沃尔玛也没有去研究这一现象的原因。但这丝毫也没有妨碍沃尔玛做出正确的决策。 这才是现代社会的思维方式。</h1><h1><br> 相关性就隐藏在大数据中。<br> 我们已经进入数字化社会,其实这个历史并不长,美国科学家克劳德•香农1948年证明了采样定理,奠定了数字化技术的基础,数字化才逐步进入人们的生活,所以克劳德•香农被世界公认为信息化之父。</h1><h1><br> 当今社会,无论玩手机、上电脑、遛马路、坐飞机、住旅店、购物、吃饭等等,都在产生大数据。据IBM统计,人每天产生2.5垓字节(250十亿个十亿)的数据,这相当于堆叠到月球又返回来的DVD碟片。这些数据都可以通过网络搜集,存储在云存储器中,都可以通过云计算进行分析。<br> 还有许多更恐怖的例子,不敢告诉你,总之,即使你真的是个孙悟空,你的一切也都将掌控在如来佛的手心里。<br></h1>