1、前言
从人类发展史问世的那一刻起,数据就随着大家为之——人们信息交流常用的文字内容和语言表达,计量检定间距或总数应用的标记和图案设计,观查当然所积攒和弘扬的工作经验等,全是数据组成的。这种数据在千万年五千年历史里,为人类发展史的发展趋势演变产生了难以估量的很大使用价值。
自打人们创造发明了纸和笔,造就了数据、文本、几何图形技术后,数据拥有更准确的表述和记载的方式,在这个基础上催生出了数据、物理学、有机化学,及其文学类、造型艺术、管理方法等课程,大家今日所享有的新时代文明,都深情的根植数据技术。
伴随着网络时代的大发展趋势,数据纪录逐渐摆脱了笔纸的限定,人们创造发明了便宜的硅晶半导体所蕴含的密秘,很多的数据可以按0或1的二进制方法储存半导体器件内,他们的储存能力如此极大,成本费如此便宜,以致于过去被容易忽视的数据都能被尊重的保留出来:大家每一下轻度的吸气、每一次心血管的颤动、每一下电脑鼠标的点一下,公司里职工的每一次出勤率、会计的每一笔信用卡账单、顾客的每一个评价,应有尽有都能一一纪录。
此外,数据的理念也在进一步扩宽。传统式的数据就是指用数字或文字说明的內容,统称为结构型数据,而大数据时期不断涌现了很多新式数据的、非结构性的数据。例如群体中间看不到的交际关联(Social Relationships),移动设备发送的GPS部位,媒体传播的图象、视频数据信号,智能穿戴设备收集的身心健康数据等。对这种各式各样的数据的收集、发掘、应用,也是当代大数据发掘的关键课题研究。
已经出现的大数据转型,也许是人们技术发展趋势中最重要的议题之一,它冲击性着很多关键的领域,包含零售业、服务行业、国际贸易和金融行业等,与此同时大数据技术也已经完全的更改人们的日常日常生活。假如把数据比成是铁矿石得话,大数据发掘技术便是要从铁矿石中提炼金子,并产生各种各样精美的成品充分发挥的全过程。它既可以根据移动智能终端和云服务器跟踪和提高自身的生活质量,也可以为现代企业产生更有效和稳定的管理方式。小到本人,大到公司和我国,大数据均是极其关键的一个话题,必须大家真真正正的深层次了解它,因而文中将对大数据发掘技术得出互动式的详细介绍,最先得出大数据的环境、基本原理和定义,随后论述大数据发掘的办法和流程,再解读大数据在企业信息化中的方法和盈利,最终共享大数据时期的行业情况,和大家面临的挑战与机会。
2、大数据技术的环境、定义和实际意义
2.1大数据的造成环境
大数据风潮问世的前提条件是电子计算机储存能力的快速扩张和费用的一再减少。归功于半导体材料技术在过去的20年来不断迅速的发展趋势,今日大家用500元RMB就能轻轻松松购买到一块能装得下63万册《红楼梦》的1T 容积的移动盘;使用价值2000元的一块PC电脑硬盘乃至能储存下全球目前为止全部的乐曲內容。在许多大型的互联网公司里,拿一台不错配备的网络服务器,就可以一举装下英国国图里全部实体书的內容——纵览全部人类发展史发展历程,今日人们具有了空前绝后的海量数据的储存能力,而且这一能力依然在日新月异的前进发展趋势着。
此外,人们造就数据的能力也一样在快速提高。传统式社会发展仅有文人雅士、达官贵人才可以青史上留有片言只语,而网络时代里所有人能轻轻松松变成数据的经营者,例如Facebook上每月被消费者共享500万件新信息内容,全世界的社交媒体每日出现1亿张新相片。可以造成和收集数据的形式也愈来愈多——计算机、手机上、电视机、车辆……一切都在昂首阔步的向“智能化系统”奋进。
大家对数据开展发掘和处置的能力也遵循着“摩尔定律”在极速的发展趋势。这种IT技术在数据造成、储存、发掘、应用层面的逐渐完善,让数据推动造成使用价值的门坎急剧下降,总算大数据时期的步伐匆匆忙忙来临了。
假如你对大数据开发设计有兴趣,想系统学习大数据或者大数据发掘得话,可以戳我添加大数据技术学习培训交流群,掌握课程内容,获得教学资源
2.2大数据的“4V”因素
大数据(Big Data)定义最开始的明确提出者是麦肯森咨询管理公司和IBM企业的专家。在大数据的界定中,有如下所示“4V”因素是一定的:Volume, Variety, Velocity, Value,实际含意如下所示:
图1:大数据的4V因素
Volume:具有超过典型性数据库手机软件搜集、储存、管理方法和剖析能力的数据集;Variety:具有多元性的,结构型、半结构化、非结构型等各种类型的数据方式;Velocity:具有迅速、即时的数据解决能力;Value:具有从稀少的数据中发掘高使用价值內容的实际意义。
4V因素间具有紧密的关联性:Volume是全部运行的基本,搭建一个容积充足极大的数据解决服务平台才可以确保其上的运用;根据Volume进一步有Variety,用以多元化数据的解决;Velocity确保了系统软件有即时数据解决的能力;最后的Value展现了数据能够起到的使用价值,大数据最重要的并不是“大”,也并非“数据”自身,反而是大家怎样了解和应用它,尽最大的很有可能发掘出在其中使用价值,正所谓吹尽黄砂始见金。
2.3大数据使用价值
企业技术创新数据使用价值的最形象化运用便是在供应链管理里,这一全过程和企业技术创新的进步通常交错在一起。在1980s时代及之前,公司的各种业务流程、会计数据全是根据帐本纪录,这类方法查看和统计分析的工作效率都很低,稳定性都不高。从1990s时代末逐渐,金融行业、电信业、大中型零售等领域公司首先将关键买卖数据数字电子化,2000年之后伴随着IT技术的发展,愈来愈多的公司将信息化管理列入议程安排,ERP(Enterprise Resource Planning)、MIS(Management Infor ** tion System)系统软件迅猛发展,设计方案、生产制造、进存销等业务流程管理逐渐数据化,这种数据被大伙儿意识到是公司最珍贵的财产,随之而起的统计信息技术也逐渐健全。2010年之后,大量类型的数据,包含顾客的访问数据、意见反馈数据等在一些公司中也都逐渐纪录并逐渐开展人性化模型和剖析,数据推动的CRM(Customer Relationship Management)顾客关系管理逐渐在精确经营和人性化服务层面初露锋芒,根据数据剖析的预测分析技术也逐渐开始发生。
图2:数据使用价值的最形象化运用便是在供应链管理里
从以往到将来,数据的实际价值在一点一滴的突显,留意这些环节是变化规律的,十年之前的大数据在如今来看压根算不上非常大;而相同的,今日的大数据在很多年后也将不会被觉得是大数据。数据容积、速率、多元性、复杂性层面在今天看来无法想象的事儿,两年以后都将彻底被刷新;唯一没变的,是对数据的考虑和剖析的方式,和运用数据来造成额外意义的立足点。
3、大数据发掘的方式、步骤和情景
3.1大数据收集的特性
大数据运用的第一步便是收集数据。俗话说:巧妇难为无米之炊,数据收集的一致性、精确性,决策了数据运用是不是能真正靠谱的充分发挥。大数据时期的数据收集有如下所示三个特性:
1)数据收集以自动化技术方式为主导,要尽可能解决人工录入的方法;2)收集內容以全量收集为主导,要解决对数据开展取样的方法;3)收集方法多元化、內容丰富化,解决过去只收集基本上数据的方法。
从收集数据的种类上看,不但要包含基本的结构型买卖数据,还将逐渐包含半结构型的客户个人行为数据,网状的交际关联数据,文字或声频种类的用户反馈和意见反馈数据,机器设备和温度传感器收集的规律性数据,爬虫获得的互联网技术数据,及其将来愈来愈多有潜在性实际意义的各种数据。
3.2普遍数据收集技术
传统式的数据收集方式包含人工录入、问卷调查、电話随诊等方法,大数据时期来临后,一个明显的变动是数据收集的方式拥有质的飞跃,下边所介紹的数据收集方法的提升立即更改着大数据运用的情景。
移动互联的崛起让面对移动设备的数据收集技术拥有快速发展趋势,现阶段采用较多的常称之为Android或iOS的收集SDK(Software Develop Kit),这类技术能协助统计分析APP的基本数据,包含用户量、活跃性状况、外流占比、应用时间等;客户的部位、安裝目录、通信状况等根据受权还可以收集。爬虫是另一类普遍采用的互联网技术收集技术,常被用以开展规模性各大网站数据采集、网络舆情监测、竞争对手分析等行业。
图3:移动互联和可佩戴感应器等新式数据收集技术迅猛发展
物联网技术也和大数据密切相关,由于物联网技术的重要技术之一是无线网络射频标签(RFID):当安裝有RFID小型标识的SD读卡器在近距发信号时,含有RFID的物件能自行回到其唯一的系列号,那样就能完成全自动大批识别物件信息内容的工作中。RFID技术解决了物件信息内容与互联网技术完成全自动联接的问题,融合后面的大数据发掘工作中,能充分发挥其强悍的杀伤力。
在工业生产加工制造业里,感应器(Sensor)是另一类普遍的大数据收集设备,它能将精确测量到的信息内容按一定规律性转换为电子信号輸出,通常用以自动识别和操控等阶段。感应器的品种极其丰富多彩:大到工业设备、车辆、飞机场、房屋建筑,小到一部智能机、一个智能产品,都能够安裝很多种多样感应器,传送溫度、工作压力、部位、偏移、感光、间距、有机化学磁感应、微生物、电磁场等各种数据信号。将来带上感应器 大数据服务平台的智能产品将愈来愈多,根据感应器数据的大数据运用才刚开始发展,如智慧医疗,新型智慧城市等,这方面拥有宽阔的市场前景。
3.3 数据储存技术的快速发展和演变
传统式公司信息系统选用关联数据库来开展数据储存,在其中经营规模很大的通常被称作“数据市集”(Data Mart)。伴随着收集数据的品种愈来愈多,一部分领域先进的企业看到了把不一样数据市集集中化到一个大体系中的使用价值,这一大系统软件称之为私有云数据库房(Enterprise Data Warehouse, EDW),由专业的数据精英团队(或称之为数据核心)承担集中型的数据管理方法和维护保养。
图4:公司数据核心是各种数据业务流程的集中化管理人员
伴随着数据量的令人震惊提高,早已采用了20余载的传统式数据库从此没法支撑点份后的储存要求了,因此被Google称之为Big Table和GFS的新式储存技术在过去的的数年里被创造出去,并在行业领域中广泛运用,这种技术根据全自动配制上万部网络服务器协调工作,能进行性能卓越和高安全可靠的数据储存每日任务,为大数据的应用平整了路面。
3.4 云计算技术与大数据
云计算可谓是大数据的最佳媒介。因为大数据储存和计算比较复杂,传统式公司在运行时必须资金投入很高的财力物力,因而把涉及到储存计算的基础设施建设抽象化和单独出去,产生的专业 ** 称之为云计算技术(Cloud Computing)。云计算就如同大数据时期的“电”,大数据系统软件则是“电器产品”——云计算技术重视服务项目的实用性,大数据关心具体的用处和实际效果。
云计算技术分成两类:云计算平台和私有云存储。云计算平台是在对外开放互联网中为客人供应服务项目,客户并不完完全全有着云资源。私有云存储是为特殊顾客独立应用而搭建的,独享应用的业务資源。应用云计算平台,等同于根据一根电缆线连接供电力网;应用私有云存储,等同于在家里安裝了一台发电机组。
云计算技术的发生大幅度降低了大数据运用的门坎,将来不论是公司或是自身运用,选用云计算技术做为媒介,大数据做为顶层运用的形式将是最好的发展前景。
3.5 大数据发掘基本原理和技术绿色生态
在解决了大数据收集、储存的问题后,最重要的重要环节是大数据发掘技术。知名的Map-Reduce的测算架构非常好的解决了大数据发掘的功能问题,被工业界普遍应用,根据Map-Reduce基本原理更为著名的开源系统完成计划方案称之为Hadoop。
在Map-Reduce基本上,近1-2年以来一些新的流式计算技术也被全球著名企业和高校明确提出,例如twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福学校的Phoenix等新技术。紧紧围绕这种关键的发掘服务平台,如今己经建立了一整套大数据发掘技术绿色生态,为上面的数据运用打下了基本。
图5:大数据计算服务平台普遍的技术生态体系
3.6 数据种类与普遍运用
大数据发掘运用中最多见的数据种类称之为结构型数据,界定为储存在数据库里,能用二维表构造来逻辑性表述完成的数据。结构型数据常见于纪录生产制造、业务流程、买卖、客户资料等领域的数据,这种数据经营规模小,內容标准,含意确立,处理方法完善,可以便捷的造成各种数据表格,为公司运行给予最立即的根据。
以经典的生产型公司运行为例子,其负债表、现金流量表等关键财务报告,均源自结构型数据的数据分析;其业务流程有关的库存量、销售量、分类目货品运转等数据,也根据相近的方法来造成。
如果是面对互联网技术项目的新式公司,则会更关心例如网站的总流量、挪动APP的日活跃性用户量(DAU,Daily Active Users)、登陆用户量、停留的时间等数据,这类数据统计分析则许多来自半结构型数据,网站访问日志便是非常典型的一种半结构型数据。半结构化数据具备可被了解的逻辑流程和格式,但这些格式并不是用户友好的,有价值的信息参杂在大量的噪声和无用的数据中,分析起来比结构化数据复杂。
图6:大数据处理的三类数据交叉融合
比半结构化数据更复杂的是非结构化数据。文本信息是目前已记录的数量最为庞大的数据形式,例如网页中的文字内容、聊天记录、电子邮件,企业的各类文档等,它们包含了大量有价值的信息,对它们的分析处理催生出了自然语言处理(NLP , Natural Language Processing)这样专门的计算机学科。
大数据处理难度最高的是多媒体类的非结构化数据,包括图像、语音、视频等,对这些数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等。近年来Google、Facebook等公司积极进行深度学习(Deep Learning)相关技术的研发,用大规模机器学习的技术来解读多媒体的数据,已经取得了非常可观的进步。(陈运文博士)
图7:多媒体类的非结构化数据的处理能产生非常多新颖的功能
对各种类似数据的挖掘和处理还远没有结束,存在巨大的应用潜力。相信大数据系统在不久的将来能产生越来越多令人惊叹的功能,甚至改变大量产业的形态。
4、大数据应用的策略、方式和收益
4.1数据统计是最直接应用
数据统计是大数据应用的最直观的形式,数据统计在企业中常被称为商业智能(BI, Business Intelligence)系统,使用者们通过观察数据报表来掌握企业的经营状况,发现企业运营的问题。大数据技术利用各种分析方法和工具在大规模海量数据中建立模型和发现数据间的潜在关系,帮助管理者们发现着眼点。
图8:商业智能(Business Intelligence)系统是最直接的应用
随着技术的进步,数据统计应用发展的越来越迅速,例如传统按周按天生成的数据报表,可以缩短为小时级甚至分钟级,同时报表的细分刻画能力也更强,有助于更及时的掌握业务变化情况,更深入了解变化的细节。
4.2 个性化技术蕴藏巨大价值
每个人生来就是与众不同的,需求也天然是个性化的。以时装产业为例,每个用户穿着打扮的口味、偏好、喜爱的款式是各不相同的,大数据能充分发挥所长,挖掘出用户的个性化需求并加以满足。亚马逊公司(A ** zon)通过挖掘用户在线的浏览行为和购买记录,成功挖掘出了用户个性化模型并进行针对性商品推荐,极大促进了商品的购买率。目前亚马逊上超过30%的购买收入由个性化推荐系统所贡献,是了不起的成就。
图9:个性化推荐系统帮助人们解决信息过载的困扰
私人订制就是个性化的一个典型案例,以往私人订制是高端人群独有的服务,价格昂贵,耗时耗力,而大数据技术能将定制过程自动化,降低成本,让普罗大众享受到个性化服务的优势。亚马逊(A ** zon)总裁杰夫·贝佐斯曾说过:“如果我的网站有一百万个顾客,我就应该有一百万个商店”。
个性化数据技术对合理调配企业资源也有积极的意义,例如美国的Dunnhumby Shop公司通过分析消费者来访问超市的时间和消费明细,对不同顾客群体采取针对性的促销手段,同时帮助供应商对不同区域制订合理有效的价格和库存和配送方案,合理的节约了运营成本。
4.3 最有吸引力的应用:预测技术
我们每天都在进行着大大小小的预测:如预测从家里出发到工作地点所需要的时间;预测某款产品发布以后一个月内的订单量。预测的愈准确,则成功的把握愈大。如果我们拥有百分之百准确的预测能力,像先知 ** 那样,就会变得无往不利。
图10:随着技术的进步,大数据正在赋予我们更强的洞察未来的能力
谁能预知未来?——大数据技术能帮你做到,因为它熟知过去。随着技术的进步,借助时间序列分析技术,·通过对趋势、季节变动、循环波动和不规则波动的因素的细致把握,大数据正在赋予我们更强的洞察未来的能力。
美国第二大连锁超市Target,通过大数据技术分析顾客的详细购买记录,判断出某位还在读书的年轻女孩已经怀孕了,并给她寄去了大量婴儿用品的优惠券,这位女孩的父亲收到优惠券后极为惊讶,经过和女儿的进一步沟通才发现真的已经有孕在身了。大数据技术比父亲更早预测出了这个真实的真相。
4.4 分类和回归技术
如同谚语“朝霞不出门,晚霞行千里”所说的,我们常常通过经验来分析不同现象之间存在的潜在关联和因果关系。而如今大数据技术能代替人工经验来更好的分析数据间的关联关系,帮助找出规律。常见的包括两类技术,一类称为回归分析技术(Regression Analysis),它通过统计科学来把握两个或多个变量间相关关系的强度。另一类称为分类技术(Classification),分类是指通过分析已标注好的训练数据,来自动的将新的未知数据按种类、等级或性质分别归类的过程。
分类和回归是人脑最常进行的操作,现在计算机也能逐步代替人类完成这样的操作,且效率是人类的数万倍。典型的应用是英国Adzuna公司根据积累的海量职位薪酬数据,自动为招聘双方提供薪酬制定的科学依据,其最优的预测算法非常精确,生成的预测值和实际薪水值误差不到10%。Adzuna已成为英国内阁 ** “幕后智囊团”,帮助英国政府了解失业率、职位空缺、薪资水平等经济发展情况,制定国策。
4.5 辅助决策系统
企业战略决策往往决定了企业的生死存亡,怎样才能更科学合理进行决策?华为公司总裁任正非曾说过“要让听得见炮火的人来决策”,提出了要从实际数据中产生科学决策结果。
大数据技术基于海量一线数据,能让决策更科学,降低误判的风险。其中大数据辅助分析有一个称为GREAT的原则:Guided, Relevant, Explainable, Actionable, Timely,基于GREAT原则越来越多的企业将会用好大数据,发挥智囊团的作用。
图11:大数据辅助分析的GREAT原则
5、大数据时代的探索、机遇和挑战
5.1 国内外大数据行业发展态势
在上述大数据技术上,通过串联起特定的数据采集、存储、挖掘、应用的机制,就能诞生出一个个具体的创新应用。例如通过RFID技术采集仓储信息,在云端存储数据并加上预测技术,能实现一个智能的物流管理系统;通过可穿戴感知器设备,加上私有云、个性化、社交网络等技术,则可以实现一个智能健康管理系统等等,可供拓展的机会有很多。
近年来大数据行业发展极为热烈:2009年美国政府启动http://Data.gov网站开放了社会公共数据的大门,向公众提供各种各样的政府数据。2009年欧洲一些研究型图书馆和科技信息研究机构建立了伙伴关系,致力于改善在互联网上获取科学数据的简易性。2011年中国工信部发布了物联网十二五规划,将信息处理技术作为4 项关键技术创新工程提出,包括了海量数据存储、数据挖掘、图像视频智能分析,都是大数据的重要组成部分。2012年瑞士达沃斯世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响Big Data, Big Impact》 宣称,数据已经成为一种新的经济资产,就像货币或黄金。近年来大数据行业的投资并购,新兴企业发展等,更是呈现出如火如荼的发展态势。
5.2 大数据时代面临的风险挑战
大数据时代所面临的重大风险之一是用户的隐私保护问题。近年来国内外多起的密码泄漏、隐私侵权等事件,暴露了这方面存在的问题。一方面我们需要对用户数据进行创新性的挖掘,另一方面还需要兼顾用户隐私的保护,两者是硬币的正反两面,其平衡和博弈的问题会始终存在。
大数据思维则是面临的更严峻挑战,则来自思维方式的转变。在企业经营逐步从传统粗放式向大数据精细化转向时,以往“差不多”、“还可以”、“领导说”等拍脑袋决策的方式要逐步让位于精确的数据分析、统计、预测系统,从“行或不行,官大的说了算”转变为“行或不行,数据说了算”,从“事后统计”转变为“事前预测”,是大数据思维方式的落实和转变。
5.3 大数据时代的创新机遇
信息技术正在以突飞猛进的速度向前进步,包括新传感器采集技术、移动互联网技术、社交网络技术的蓬勃发展,将带来大量的创新性应用。大数据是新时代的石油,通过研发分析各种多元结构化数据的高效技术,提高数据产品的易用性,让数据分析实现“开箱即用”,其蕴藏的巨大能量将使数据成为政府和企业建立核心竞争力的关键途径,甚至能够颠覆很多传统行业的运作方式,带领我们进入信息革命的新时代。
对我们每个人而言,跟随大数据的浪潮,把握机遇,投身其中,在大数据创新的浪潮之巅定能一展身手。
扫码咨询与免费使用
申请免费使用