用好大数据 布局新时代

数字中国

<h3>导读: 所有通信基础设施的强大,都是为大数据崛起铺平道路。</h3><h3>人类提出大数据,研究大数据的主要目的,就是为了挖掘大数据里面的价值。</h3><h3>大数据也面临着很多挑战,除了数据管理技术难度之外,大数据的最大挑战,就是安全。</h3><h3>即使合法获取数据,也要担心是否被恶意攻击和窃取,除了安全之外,大数据还要面临能耗等方面的问题。</h3> <h3>这些年,大数据作为一个时髦概念,出现频率很高,关注度也很高。</h3><h3>对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。</h3><h3>但是,事实并非如此。</h3><h3>大数据比想象中复杂。它不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。</h3><h3>更进一步来说,大数据是一种全新的思维方式和商业模式。</h3> <h3>近年来,大数据这个词的热度很高,受到公众的广泛关注。</h3><h3>对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。</h3><h3>但事实上,它并不只是一项存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统,是一个庞大的框架系统。</h3><h3>更进一步来说,大数据是一种全新的思维方式和商业模式。</h3> <h3>今天,就让我们首先来深入了解一下,到底什么是大数据。</h3><h3><br></h3><h3> 大数据的定义 </h3><h3><br></h3><h3>首先,我们看看大数据的定义。<br></h3><h3>行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。</h3><h3>广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。</h3><h3>狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。</h3><h3>相比较而言,狭义定义更好理解一些。</h3><h3>要做什么?——获取数据、存储数据、分析数据;</h3><h3>对谁做?——大容量数据;</h3><h3>目的是什么?——挖掘价值。</h3><h3>获取数据、存储数据、分析数据,这一系列的行为,都不算新奇,我们每天都在用电脑,每天都在干这个事。</h3><h3>例如 : 每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。</h3><h3>但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。</h3> <h3>大数据,到底有多大? </h3><h3> 我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。</h3><h3>TB、GB、MB、KB的关系,大家应该都很熟悉了:</h3><h3><br></h3><h3>1 KB = 1024 B (KB - kilobyte) </h3><h3>1 MB = 1024 KB (MB - megabyte) </h3><h3>1 GB = 1024 MB (GB - gigabyte) </h3><h3>1 TB = 1024 GB (TB - terabyte) </h3><h3><br></h3><h3>而大数据是什么级别呢?PB/EB级别。</h3> <h3>大部分人都没听过。其实也就是继续乘以1024:</h3><h3><br></h3><h3>1 PB = 1024 TB (PB - petabyte) <br></h3><h3><br></h3><h3>1 EB = 1024 PB (EB - exabyte) </h3><h3><br></h3><h3>只是看这几个字母的话,貌似不是很直观。我来举个例子吧。<br></h3><h3><br></h3><h3>1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是20万部电子书。<br></h3> <h3>1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年……</h3> <h3>1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。</h3> <h3>阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。</h3> <h3>EB还不是最大的。目前全人类的数据量,是ZB级。</h3><h3><br></h3><h3>1 ZB = 1024 EB (ZB - zettabyte) </h3><h3><br></h3><h3>2011年,全球被创建和复制的数据总量是1.8ZB。</h3><h3>而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。</h3> <h3>数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。</h3><h3><br></h3><h3><br></h3><h3>目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。<br></h3><h3><br></h3><h3>大数据的级别定位 :<br></h3><h3><br></h3><h3>1 KB = 1024 B (KB - kilobyte) </h3><h3><br></h3><h3>1 MB = 1024 KB (MB - megabyte) </h3><h3><br></h3><h3>1 GB = 1024 MB (GB - gigabyte) </h3><h3><br></h3><h3>1 TB = 1024 GB (TB - terabyte) </h3><h3><br></h3><h3>1 PB = 1024 TB (PB - petabyte) </h3><h3><br></h3><h3>1 EB = 1024 PB (EB - exabyte) </h3><h3><br></h3><h3>1 ZB = 1024 EB (ZB - zettabyte)</h3> <p class="ql-block">ZB级全球数据级别还不是最大的。向上有ZB、YB、BB、NB、DB、CB。</p><p class="ql-block">1ZB=1024EB&nbsp;&nbsp;&nbsp;1YB=1024ZB&nbsp;&nbsp;1BB=1024YB&nbsp;&nbsp;1NB=1024BB&nbsp;&nbsp;1DB=1024NB&nbsp;&nbsp;1CB=1024DB</p> <h3>  数据的来源 </h3><h3><br></h3><h3> 数据的增长,为什么会如此之快?</h3><h3>说到这里,就要回顾一下人类社会数据产生的几个重要阶段。</h3><h3>大致来说,是三个重要的阶段。</h3><h3><br></h3><h3>第一个阶段,就是计算机被发明之后的阶段;尤其是数据库被发明之后,使得数据管理的复杂度大大降低,各行各业开始产生了数据,从而被记录在数据库中。</h3><h3>这时的数据,以结构化数据为主(待会解释什么是“结构化数据”),数据的产生方式,也是被动的。</h3> <h3> 世界上第一台通用计算机-ENIAC</h3> <h3>第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据;</h3> <h3>第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。</h3> <h3>经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。</h3> <h3>  大数据的4个V </h3><h3><br></h3><h3>行业里对大数据的特点,概括为4个V。<br></h3><h3>前面所说的庞大数据体量,就是Volume(海量化)。</h3><h3>除了Volume之外,剩下三个,分别是Variety、Velocity、Value。<br></h3><h3>我们一个一个来介绍。<br></h3><h3><br></h3><h3>Variety(多样化)<br></h3><h3><br></h3><h3>数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。<br></h3><h3>数据又分为结构化数据和非结构化数据。<br></h3><h3>从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。<br></h3> <h3>结构化数据 : </h3><h3>例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。</h3><h3>而网页文章、邮件内容、图像、音频、视频等,都属于非结构化数据。<br></h3><h3><br></h3><h3>在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。<br></h3><h3><br></h3><h3>大数据,就符合这样的特点:</h3><h3>数据形式多样化,且非结构化数据占比高。<br></h3><h3><br></h3><h3>Velocity(时效性)<br></h3><h3><br></h3><h3>大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。<br></h3><h3>我们还是用数字来说话:<br></h3><h3>就在刚刚过去的这一分钟,数据世界里发生了什么?<br></h3><h3><br></h3><h3>Email:2.04亿封被发出<br></h3><h3>Google:200万次搜索请求被提交<br></h3><h3>Youtube:2880分钟的视频被上传<br></h3><h3>Facebook:69.5万条状态被更新<br></h3><h3>Twitter:98000条推送被发出<br></h3><h3>12306:1840张车票被卖出<br></h3><h3>……</h3><h3><br></h3><h3>怎么样?是不是瞬息万变?<br></h3><h3><br></h3><h3>Value(价值密度)<br></h3><h3>最后一个特点,就是价值密度。<br></h3><h3><br></h3><h3>大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。<br></h3><h3>例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。<br></h3> <h3>2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。</h3> <h3>  大数据的价值 </h3><h3><br></h3><h3>刚才说到价值密度,也就说到了大数据的核心本质,那就是价值。<br></h3><h3>人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。<br></h3><h3><br></h3><h3>大数据,究竟有什么价值?<br></h3><h3>早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。<br></h3> <h3>第一次浪潮:农业阶段,约1万年前开始;</h3><h3>第二次浪潮:工业阶段,17世纪末开始;<br></h3><h3>第三次浪潮:信息化阶段,20世纪50年代后期开始。<br></h3><h3>进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。<br></h3><h3><br></h3><h3>2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。<br></h3><h3>如今,大数据应用开始走进我们的生活,影响我们的衣食住行。<br></h3> <h3>之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。</h3><h3>归纳来说,大数据的价值主要来自于两个方面:<br></h3><h3>1 、帮助企业了解用户;<br></h3><h3><br></h3><h3>大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。<br></h3><h3>典型的例子就是电商。<br></h3><h3>像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。<br></h3><h3>通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。<br></h3> <h3>大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。</h3><h3>除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。<br></h3> <h3> 大数据甚至能够帮助竞选总统</h3> <h3>2 、帮助企业了解自己。</h3><h3><br></h3><h3>除了帮助了解用户之外,大数据还能帮助了解自己。<br></h3><h3>企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。<br></h3><h3>总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。<br></h3><h3><br></h3><h3> 大数据和云计算 <br></h3><h3><br></h3><h3>说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?<br></h3><h3>可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。<br></h3><h3>从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。<br></h3><h3>云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。<br></h3><h3>相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。<br></h3><h3>也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。<br></h3><h3>套用一句老话——云计算和大数据,两者是相辅相成的。<br></h3><h3><br></h3><h3> 大数据和物联网(5G) <br></h3><h3><br></h3><h3>第二个问题,大数据和物联网有什么关系?<br></h3><h3><br></h3><h3>这个问题我觉得大家应该能够很快想明白,前面其实也提到了。<br></h3><h3>物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。<br></h3><h3>同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。<br></h3><h3>其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。<br></h3><h3>即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。<br></h3><h3>另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。<br></h3><h3>5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。<br></h3><h3> </h3><h3> 大数据的产业链 <br></h3><h3><br></h3><h3>接下来再说说大数据的产业链。<br></h3><h3>大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。<br></h3><h3>每个环节,都有相应的角色<br></h3> <h3>从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。</h3> <h3> 大数据的挑战 </h3><h3> </h3><h3>说了那么多大数据的好话,并不代表大数据是完美的。<br></h3><h3> 大数据也面临着很多挑战。<br></h3><h3>除了数据管理技术难度之外,大数据的最大挑战,就是安全。<br></h3><h3>数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。<br></h3> <h3>欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度。</h3> <h3>在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。</h3><h3>此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。</h3><h3>除了安全之外,大数据还要面临能耗等方面的问题。<br></h3><h3>换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。<br></h3> <h3>中共中央政治局2017年12月8日下午就实施国家大数据战略进行第二次集体学习。</h3><h3>中共中央总书记习近平在主持学习时强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,构建高速、移动、泛在、安全的数字基础设施,更好服务我国经济社会发展和人民生活改善,为用好大数据、赢得新时代发展的战略指明了方向。</h3> <h3>习近平强调,要推动大数据技术产业创新发展。</h3><h3>我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。要加快构建高速、移动、安全、泛在的新一代信息基础设施,统筹规划政务数据资源和社会数据资源,完善基础信息资源和重要领域信息资源建设,形成万物互联、人机交互、天地一体的网络空间。</h3><h3>要发挥我国制度优势和市场优势,面向国家重大需求,面向国民经济发展主战场,全面实施促进大数据发展行动,完善大数据发展政策环境。</h3><h3>要坚持数据开放、市场主导,以数据为纽带促进产学研深度融合,形成数据驱动型创新体系和发展模式,培育造就一批大数据领军企业,打造多层次、多类型的大数据人才队伍。</h3> <h3>中国的经济发展模式必须按照习近平新时代中国特色社会主义思想指引,按照四个全面战略布局和五位一体总体布局,贯彻新发展理念,按照党的宗旨和群众路线,以人民为中心,践行社会主义核心价值观,不忘初心、牢记使命,全面转型升级,全面创新驱动,实现新旧动能转换,新旧价值置换,国富民强,物阜民康,家给人足,国泰民安,长治久安,满足人民的美好生活需要需求!</h3> <h3>图文来源: 腾讯大讲堂 中数信安 人民日报</h3><h3>编辑: 《数字中国》美篇</h3>