大数据(big data),是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据,其规模往往达到了PB(1024TB)级。不同机构对大数据也有不同的定义。
Gartner对大数据的定义:大数据是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡对大数据的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
移动信息化研究中心对大数据的定义:大数据是帮助企业利用海量数据资产,实时、精确地洞察未知逻辑领域的动态变化,并快速重塑业务流程、组织和行业的新兴数据管理技术。
大数据产业:是指一切与大数据的产生与集聚、组织与管理、分析与发现、应用与服务相关的所有活动的集合。主要包括大数据硬件、大数据软件和大数据应用三大块。
拥有数据的公司、个人、社会团体以及政府机构等,此类角色属于大数据产业链上的基础环节,包括数据源提供者、数据流通平台提供者和数据API提供者。目前我国大数据提供者包括政府管理部门、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、提供数据流通平台服务和数据API服务的第三方数据服务企业、社会团体或者个人等。
提供直接应用于大数据产品的企业,包括提供大数据应用软件、大数据基础软件、大数据相关硬件产品的企业。
大数据应用软件产品提供者,包括提供整体解决方案的综合技术服务商,也包括大数据计算基础设施上(与云结合),从简单的文件存储的空间租售模式,逐步扩展到提供数据聚合平台,进而扩展到为客户提供分析业务的服务上。
大数据基础软件提供商,此类企业搭建大数据平台、提供相关大数据技术支持、云存储、数据安全等,此类公司在某些垂直行业或者区域掌握大数据入口与出口,并能对一些数据进行采集、整合和汇集。这样的企业包括传统的IT企业、设备商以及新兴的云服务相关企业。
以大数据为核心资源,以大数据应用为主业开展商业经营的企业。包括大数据应用服务提供者、大数据分析服务提供者、大数据基础设施服务提供者。这类企业挖掘数据价值,处于大数据产业链的下游,它们通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟。从某种角度上说正是此类公司创造了大数据的真正价值,具体包括:
2)分析服务提供者,提供技术服务支持、技术(方法、商业等)咨询,或者为企业提供类似数据科学家的咨询服务。
3)大数据基础设施服务提供者,提供面向大数据技术和服务提供者的培训、咨询、推广等的基础类通用类的服务提供者。
当前网民增长进入了一个相对平稳的阶段,互联网在易转化人群和发达地区居民中的普及率已经达到较高水平,下一阶段中国互联网的普及将转向受教育程度较低的人群以及发展相对落后地区的居民。目前,随着移动互联网的繁荣发展,移动终端设备价格更低廉、接入互联网更方便等特性,为部分落后地区和难转化人群中的互联网推广工作提供了契机。
截至2020年12月,我国网民规模达到9.89亿,较2020年3月增长8540万,互联网普及率达70.4%,较2020年3月提升5.9个百分点。其中手机网民规模达9.86亿,较2020年3月增长8885万,网民使用手机上网的比例达99.7%,较2020年3月提升0.4个百分点。
当前,我国正在加速从数据大国向着数据强国迈进。国际数据公司IDC和数据存储公司希捷的一份报告显示,到2025年,随着中国物联网等新技术的持续推进,其产生的数据将超过美国。
我国产生的数据量将从2019年的约9.4ZB增至2025年的48.6ZB,数据交易迎来战略机遇期。1zettabyte大约是1万亿gigabyte,这是当今常用的测量方法。与此同时,美国2019年的数据量约为8.6ZB。到2025年,这个数字预计将达到30.6ZB。
在产业层面,我国大数据产业继续保持高速发展,大数据将深入渗透到各行各业。对于我国大数据产业的规模,目前各个研究机构均采取简介方法估算。根据国家工业信息安全发展研究中心通过对全国3000多家大数据相关企业的问卷调查和座谈形成的《2019中国大数据产业发展报告》,截至2019年,中国大数据产业规模超过8000亿元,预计到2020年底将超过万亿。目前,17个省市建立了大数据局,大数据安全维护机制日益完善。
283所高校获批数据与大数据技术专业,全国有100多个大数据相关产业联盟成立,对大数据的发展起到推动作用。另外,大数据研发人员2019年超过8万人,研发投入超过550亿人民币。
注:此处大数据统计口径:指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。
大数据产业包括一切与大数据的产生与集聚(数据源)、组织与管理(存储)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。大数据产业按照数据价值实现流程,包括数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层等六大层级,每一层都包含相应的IT硬件设施、软件技术与信息服务等。
从发展趋势来看,随着大数据相关产品及应用的不断普及,未来应用层规模将逐步增长。在技术层、数据源层以及衍生层的共同支撑下,2020年中国大数据应用市场规模份额将达到40%。其中,交易市场规模虽然占比最少,但是正是由于它的存在,使得数据的交易从法律上实现数据的合法化问题,以及实现了数据价值兑现。
国内大数据产业园是集聚大数据产业资源的重要载体。当前,不仅八个国家级大数据综合试验区(贵州、京津冀、辽宁、内蒙古、上海、河南、重庆、珠三角)的大数据产业园/基地快速发展,与这些试验区毗邻的省份,如安徽、湖北、四川、陕西、浙江、山东和江苏,也都加快推进“大数据产业园区/基地”建设,增强数字经济发展实力,加速产业转型升级。
多数大数据产业园的发展思路:“基础设施建设-数汇集整合开放共享,企业上云-大数据融合应用-大数据产业链延伸”,即首先聚集数据资源,而后通过落地开放共享,协同效应带动开发,最终实现产业链的拓展和完善。
中国的大数据产业园可以分为三类:北京、上海、广州和深圳的大数据产业园多脱胎于原先的各类软件园,具有良好的发展基础和优势;河南、重庆、大连、沈阳、内蒙古、贵州等国家大数据综合试验区,加速推进辖区内大数据产业园建设;部分东南和中部省份,顺应产业发展趋势,也积极布局大数据产业园,力促产业转型升级。
2015年,国家印发《关于促进大数据发展的行动纲要》,第一次将大数据上升到国家战略高度,提出了我国大数据的顶层设计。此后,随着大数据底层设施逐渐成熟,大数据分析开始结合具体行业,向下游垂直行业应用延伸。
大数据开始由主题概念向业绩兑现转换。包括房地产、商贸零售、金融、汽车等传统行业开始深入布局大数据的行业应用。大数据源的战略性资源属性越来越普遍地得到各方认同,拥有数据源的企业在补齐分析和应用的技术,有望凭借数据链上游核心资源迎来快速发展。
密集出台的大数据政策表明国家大力推动的意愿,环保部、国务院办公厅、国土资源部、国家林业局、煤工委、交通运输部、农业部的细则侧重指引垂直行业的落地。在政策的推动下,大数据加快了向各行业中的普及,并已全面从理论研究迈向实际应用,通过实际的经济效益实现,带动更多的行业开启大数据应用探索。
具体从产业来看,互联网、金融、通信、安防等产业目前与大数据融合情况较好,交通、能源、工业等也在快速应用大数据。以工业为例,工业大数据产业规模到2019年有600多亿,到2020年,复合增长将达到50%以上,研发设计、生产、供应链、销售、运维等领域数据量越来越大。而医疗行业大数据在某些点上用得不错,但是要真正替代人,路径还比较长。
数据外包是指大数据企业将价值链中原本由自身提提供的具有基础性的、共性的、非核心的IT业务和基于IT业务的流程剥离出来后,外包给专业服务提供商来完成,通过重组价值链、优化资源配置,降低成本,增强核心竞争力。
数据外包有效地解决了数据孤岛以及清理和标记机器学习培训数据需要花费大量的时间和费用这两个问题,促成了“三赢”
数据安全防护是通过采用各种技术和管理措施,使与数据采集、存储、分析处理等各类系统正常运行,从而确保各类数据的可用性、完整性和保密性。通过采用全面的数据发现能力、快速的安全事件响应,以及有效地云和大数据安全保护,来为用户提供合规的、弹性的、智能的、一站式数据安全解决方案。
数据泄露事件持续不断。根据安全情报供应商Risk Based Security发布数据泄露情况显示,2018年公开披露的数据泄露事件达到6500起,涉及50亿条数据记录。其中三分之二来自商业组织,政府占13.9%,医疗行业占13.4%,教育业占6.5%。2019年全球数据泄露持续增长,超过100亿条,2020年前三季度更是达到360亿条,远超2019年全年。
数据泄露给企业和用户等各方造成了高昂的成本,IBM Security 发布《2020年数据泄露成本报告》显示,揭示了数据泄露事件给企业造成的平均成本为386万美元,而其中员工账户遭受攻击是最昂贵的原因。超过5000万条记录被泄露的数据泄露事件的成本,从2019年的3.88亿美元跃升至3.92亿美元。泄露记录条数从40到5000万条不等的数据泄露事件的平均成本达到3.64亿美元,与2019年相比,该项成本增加了1900万美元。
国内数据泄露方面,2020上半年重大数据泄露事件有:5亿新浪微博用户数据遭泄露、青岛市胶州中心医院6000余人个人信息被泄露、江苏南通5000多万条个人信息在“暗网”倒卖、建设银行员工贩卖5万多条客户信息等,具体如下:
目前国内的数据安全市场也正处于成长期,随着数据泄露事件数量激增、性质不断恶化,以及企业数字化转型加速、业务上云,物联网、区块链等新技术的落地,国内对于数据安全相关领域和应用的重视程度正在不断增加。
随着“互联网流量红利”达到饱和,线上营销服务逐步由增量竞争转变为存量竞争。在此背景下,以新零售为代表的“线下场景营销”成为破局关键。
根据新零售理论,线上销售将会与线下销售结合,同时会结合现代物流、大数据、云计算等技术。未来可能会有60%-80%的零售属于新零售。数据驱动是新零售的内核之一。
数字营销供应商,通过收集线下场景数据,制作“人物画像”,精准刻画线下客户群体。进一步,通过与各类“广告主”合。