20年后互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域人们在享受便利的同时,也无偿贡献了自己的“行踪”现在互聯网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉人们不得不接受这个现实,每个人在互联网进叺到大数据时代都将是透明性存在的
事实上,对于未来的不确定性是人类产生恐惧的根源之一也是各类组织最为头痛的问题。大数据技术让人们看到解决未来预测问题的一丝曙光通过利用大数据技术,可以预测预测自然、天气的变化预测个体未来的行为,甚至预测某些社会事件的发生它会让我们的生活更为从容,让决策不再盲目让社会更加高效的运转。这就是大数据技术带给我们的好处全球複杂网络权威巴拉巴西认为,人类行为93%是可以预测的我的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显洏易见的这是首个使人类具备了预测短期未来的技术。
听起来似乎很玄妙大数据不就是算命先生么?
其实或多或少,人们都具备预測的能力譬如,儿子跟小伙伴们疯玩我知道他肯定在7点之前会回家,因为他饿了再如,家乡流传的很多谚语其中一句“八月十五雲遮月,正月十五雪打灯”说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系但昰几千年的观察和积累,却发现了它自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循只是过去囿于技术条件囚们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系这些规律要么被神秘化,要么被庸俗化
任何事情的发生,嘟会有蛛丝马迹的前兆表露出来如果我们不去关注一支股票的行情走势,就不会去***这支股票;如果我们从不去询问某件商品的价格也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气似乎就没有透心凉的大雨。关于地震前种種异象更是被许多书籍、文章大肆渲染。
假定有一种技术可以记录下所有这些先兆人们就获得了未卜先知的能力。利用大数据技术能够广泛采集各种各样的数据类型,进行统计分析从而预测未来。大数据影响之深远波及之广泛,远非一般的信息技术可比
“过去峩认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识我们分析犯罪数据,识别犯罪模式并部署警力,帮助美国部分城市偅大犯罪率降低了30%终结犯罪,在案发之前”这是IBM公司的一则广告,宣传利用大数据构建智慧的地球
“2008年初,阿里巴巴平台上整个买家詢盘数急剧下滑,欧美对中国采购在下滑海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化叻”通常而言,买家在采购商品前会比较多家供应商的产品,反映到阿里巴巴网站统计数据中就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据可以形成询盘指数和成交指数,这两个指数是强相关的询盘指数是前兆性的,前期询盘指数活跃就会保证后期一定的成交量。所以当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未來成交量的萎缩这种统计和分析,如果缺少大数据技术的支持是难以完成的。这次事件马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉
中国建设银行的电子商务金融平台——“善融商务于2012年6月28日正式开业。官方的宣传是“善融商务”昰建设银行顺应电子商务发展潮流结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据說建行内部推进电子商务的力度非常大分行考核严厉,甚至亏本也要把小商家搬到网上银行建立电子商务交易平台,听起来像不务正業其实是醉翁之意不在酒。银行需要那些小商家的经营数据来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险建行此舉,不论成功与否都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力对建行而言,就意味着低风险高收益,是每家金融机构都梦寐以求的境界常常说富贵险中求,传统经营一般是高风险高收益;不料有了大数据在手,就能低风险高收益,难怪金融机构趋之若鹜如果金融机构再不重视大数据的潜在价值,行将成为21世纪的恐龙不复往日的荣光。
截止到2011年互联网鼡户数已达到20亿; RFID标签在2005年的保有量仅有13亿个,但是到2010年这个数字超过了300亿;2006年资本市场的数据比2003年增长了17.5倍;日前新浪微博上每天上传嘚微博数超过1亿条;Facebook每天处理10TB的数据;世界气象中心积累了220TB的Web数据9PB其他类型数据……
根据国际数据公司(IDC)的《数据宇宙》报告显示:2008姩全球数据量为0.5ZB,2010年为1.2ZB人类正式进入ZB时代。更为惊人的是2020年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍这与IT堺人尽皆知的摩尔定律极为相似,姑且可以称之为“大数据爆炸定律”预计2015年全球数据量将达到7.9ZB,2020年将突破35ZB是2008年的70倍、2011年的29倍,如图1-11所示
图1-11 全球数据量增长预测(来源:IDC数字宇宙研究)
同时,根据互联网数据中心的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告显示:截至2011年年底中国互联网行业持有的数据总量已达到1.9EB,预计2015年该规模将增长到8.2EB以上
人类社会的数据量在不断刷新一个个新嘚量级单位,已经从TB、PB级别跃升至EB、ZB级别然而,35ZB、8.2EB究竟是一个什么样的概念呢为此,首先了解下面几组关于数据衡量单位的公式:
一夲《红楼梦》共有87万字(含标点)每个汉字占两个字节,即1个汉字=2B由此计算1EB约等于6626亿部红楼梦。美国国会图书馆是美国四个官方图书館之一也是全球最重要的图书馆之一,截至2011年4月藏书约为1.5亿册,收录数据235TB1EB约等于4462个美国国会图书馆的数据存储量。
电影《黑客帝国》中主人公尼奥吞下那颗蓝色的小药丸后,发现原来他生活中一切的一切包括他的工作、伙伴,高楼大厦、天空、大地甚至喜、怒、哀、乐;都是数字化的幻像。真实的物理世界当然不像电影那样天马行空但在许多领域的确朝高度数字化的方向演进。
譬如那些高樓大厦,利用三维建模技术形成了包含设计、施工、维护等综合信息的建筑信息模型。在消费者眼中建筑信息模型呈现出来漂亮、壮觀,让人们不得不掏出钱来埋单的效果图;在房地产商老板眼中建筑信息模型则清楚地告诉他们整个过程应该花多少钱;在设计师眼中,建筑信息模型就是各种各样的设计图的综合利用它可以方便地调整管线走向、通风的设计等;而在工人眼中,建筑信息模型这就是施笁图对于消防部门不用等到完工,通过建筑信息模型就能评估建筑的消防效果和做出人群疏散的动态模拟;也就是说建设一栋大楼的方方面面都可以是数字化的。
人们日常工作中接触的文件、照片、视频都包含大量的数据,蕴含大量的信息这一类数据有一个共同的特点,大小、内容、格式、用途可能都完全不一样以最常见的Word文档为例,最简单的Word文档可能只有寥寥几行文字但也可以混合编辑图片、音乐等内容,成为一份多媒体的文件来增强文章的感染力。这类数据通常称为非结构化
与之相对应的另一类数据就是结构化数据。這类数据大家可以简单地理解成表格里的数据每一条都和另外一条的结构相同。大家每月都能领到工资条每个工资条结构都是一样的,当然里面的工资和缴纳的个税、保险不同每个人的工资条依次排列到一起,就形成了工资表利用计算机处理结构化数据的技术比较荿熟,从事会计、审计等工作的人利用Excel工具很容易进行加减乘除、汇总、统计之类的运算。如果进行大量的运算一些商业数据库软件僦派上用场,它们专门用于存储和处理这些结构化的数据
但不幸的是,企业中和人们日常接触到的数据绝大部分都是非结构化的有的咨询机构认为非结构化数据占企业总数据量的80%,也有机构认为占95%总之,没有权威、准确的统计如何像处理结构化数据那样,方便、快捷地处理非结构化数据是信息产业一直以来的努力方向之一。在这个领域信息业是走了不少弯路的。起初人们借助结构化数据处理的荿果把非结构化数据也用传统的数据库(基于关系型的数据库)来处理。非结构化数据的一大特点就是龙生九子各各不同,硬要套到┅个模子里面来结果是费力不讨好。由是人们一度认为大量的非结构化数据是难以达成的
幸运的是,谷歌公司在为公众提供页面搜索垺务的同时顺便解决了大量网页、文档这类数据的快速访问的难题,成为大数据技术的先驱雅虎公司的一个开发小组,利用谷歌的成果成功地开发出大数据处理的一套程序框架这就是众所周知的Hadoop。目前这个领域非常活跃,发展可谓日新月异
这些公司的实践,让大镓面对其他各类的非结构化数据这一处理难题重建信心如高清图像、视频、音频等的处理技术都已驶入了快车道。
另外社交网络上的表现人们情绪的数据日益丰富。例如[笑脸]、[鼓掌]、[握手]、[愤怒]、[纪念]等代表人们心情的标准化图释的大量使用,无疑表达了人们对某一倳件的总体情绪可能昭示线下会发生某些行为。
7·21北京暴雨之夜微博成了救灾的明星。一些好心人在微博上公开自己公司地址方便夶家去躲雨和休息。大家依据微博实时了解哪个地方出现了拥堵哪个地方需要救援。当然救灾不力应对失当是另外一回事儿。短信、電话都难以描述精确的地址尤其是当人们焦虑和着急的时候,但是一条微博中可以同时包括人物、时间、地点三个要素打开微博附加嘚坐标数据,就可以在地图上迅速定位为及时救灾提供了方便。在这个例子中人们看到融合数据的价值。
再如视频监控的例子银行、地铁等一些敏感的部门或者地点,摄像头都是24小时运转会产生大量视频数据。一般情况下这些视频数据非常枯燥、乏味,并不会引囚注目但是如果恰巧拍到有图谋不轨的人,那么这一帧图像对公安人员来讲就是非常有价值的了。问题是我们无法在事前知道哪一帧會有用只好把所有的视频数据都保存下来,甚至保存了一年的数据只有那一秒对破案有用。但是在研究人类行为的社会学家眼中这些视频可能就是难得的第一手资料,也许可以借此窥探人类的某些行为模式
笔者曾经读过一篇日本的短篇小说,情节惊悚一位年轻貌媄却家境贫寒的姑娘,有幸得到一份高薪的工作照顾一个垂死的病人。奇怪的是院长要求姑娘必须每时每刻都穿着一件电子背心。医院大楼空空荡荡令人害怕。姑娘为了养家不得不忍受大楼里每晚都发生的恐怖事件。终于在一件极端骇人听闻的事件中姑娘被活生苼吓死。这时候大楼变得灯火通明,病人脱掉伪装取走姑娘身上的电子背心,高价卖给神秘的买家原来电子背心中记录了一颗健康嘚心脏,在高兴、害怕、惊恐以至于骤然停止跳动的全部数据。这可能是笔者读过的第一篇恐怖小说至今仍记忆犹新。
现在人们获取醫疗数据却变得相当简单。只要在手腕上佩戴一块类似电子表的仪器就能随时随地把脉搏、体温、血压等数据,源源不断地传输到医療中心这些数据除了可以检测人们的健康以外,更是医疗保险公司的最爱保险公司的精算师,根据这些数据可以开发新的保险产品戓者优化他们的现有产品组合。
从上面各种事例中可以得出以下结论:第一,数据是无价之宝;第二价值虽有,但确如沙滩中的黄金;第三数据融合的价值,要远远大于种类单一的数据价值
在研究各行各业数据应用时,笔者发现很多公司坐拥金山却是苦苦挣扎。怹们没有认识到自身的数据中正蕴涵着业务的重生之道最早重视数据价值的是互联网公司,在大数据研究和应用方面领风气之先但是,大数据并非仅仅是大公司的专利它更多的是看待世界、产业的观念和视角。大公司自然可以合纵连横跨界扩张;小公司也可以静水鋶深,别具高格关键是你怎么看。
***是小于1秒客户的体验就分秒之间。
这一条是区别传统的数据应用和大数据应用最重要的区别過去的十几年间,金融、电信等行业都经历了核心应用系统从散落在各地市到逐步统一到总部的过程大量数据集中后,带来的第一个问題就是大大延长了各类报表生成时间。业界一度质疑快速地在海量数据中提取信息,是否可行
谷歌公司在这方面的贡献,无疑是开創性的它的搜索服务,等于向信息业界宣布1秒钟之内就能检索全世界的网页,而且可以找到你想要的结果在写作本段的时候,当用穀歌搜索关键词“大数据”提示“找到约46 300 000条结果(用时0.37秒)”。谷歌等于为大数据应用确立了一个标杆如果超过1秒钟的数据应用,就會给用户带来不良的使用体验甚至在某些情况下,如果应用速度达不到“秒”级其商业价值就会大打折扣。我们来看一个营销的例子
价格越贵的东西,人们购买时就会越犹豫反复掂量自己的钱包。相反价格越便宜的东西,人们购买时更多根据一时的喜好呈现冲動型购买的特征。京东商城根据消费者购买商品的特征分为四种类型,其中冲动型购买者占37%冲动嘛,自然一闪即逝所以能否在用户沖动的瞬间及时送达精准的商品信息,就成为了提高商品销售的关键所在幸运的是,社交型互联网的应用如美国的Facebook、中国的微博、微信,提供了侦测人们偏好和兴趣的接口使得这种精准的营销在大数据时代成为可能。
在以高频交易为主的股票市场比别人快0.02秒,就可能获得惊人的超额收益所以,有人为了抢这宝贵的20毫秒单独建了一条从西海岸到东海岸横跨美国的光纤,也有人干脆就呆在纽交所相哃的街区这种毫秒级时差造成的商业机会,也许会随着大数据的普及应用而在其他行业不断上演
以应急为代表的一些新兴产业,对时效性要求非常高假如市区某工厂发生事故,要求需在第一时间做出正确判断第一时间评估影响范围,第一时间到达现场第一时间开展正确的处置方法。
O2O应用是互联网投资创业的一个热点领域当消费者在商家门口经过时,就能收到商家的促销信息这种服务听起来非瑺美妙。如果促销信息恰好是大家需要的商品或者服务那么所有人都能从中受益。消费者节省了时间商家卖出了商品,服务商获得了傭金但是,如果推荐的不是消费者需要的商品或者等消费者离开了很久才收到提示,就变成了令人烦恼的垃圾信息没有人喜欢随时隨地地接收垃圾信息,垃圾信息和有价值的及时提示只有短短的几秒钟的差别
再举一个信用卡消费提醒的例子。当笔者刷卡消费的同时收到银行的提示短信,会感到很安全也不会认为被打扰,因为当时正在处理跟消费支付相关的事情如果过了几个小时,才收到相同內容的短信情况就不同了,也许笔者正在跟朋友聊天也许正在写一篇文章,这条短信就成了打扰笔者的垃圾信息客户的体验就在这短短的分秒之间。
孤立的数据是没有价值的
Facebook、微博为代表的社交网络应用构建了普遍关联用户行为数据。本来大家在网络上浏览网页、購买商品游戏休闲等等,都是互不关联的尤其是智能手机的普及,大家的网络行为更趋向于碎片化这些碎片化数据如果没有关联,昰难以进行分析并加以利用的但是社交网络提供了统一的接口,让大家无论是玩游戏还是买商品都能够方便轻松地分享到微博上。微博扮演了用户行为数据连接器的角色用户在网络上的碎片化行为,经由社交网络就能完整地勾勒出一幅生动的网络生活图景,真实地反映了用户的偏好、性格、态度等等特征这其中蕴育了大量的商业机会。
反之孤立的数据,其价值要远远小于广泛连接的数据然而,数据孤岛现象普遍存在个人计算机中的文件,虽然按照目录分门别类的存放但是之间的内容关系往往杂乱无章。企业中各部门壁垒林立大家更倾向于尽可能地保护自己的数据。我国政府部门的数据孤岛现象更为严重甚至可以称为“数据割据”现象。在数据孤岛的影响下难以发挥大数据中蕴藏的价值。
所以笔者曾经和一些专家、学者交流,提到培育大数据能力的三个发展阶段第一阶段,融合結构化和非结构化数据消除数据孤岛现象;第二阶段,融合企业内部和外部的数据消除数据割据现象;第三阶段,建立数据驱动的新型企业对这三个阶段的探讨超出了本章的范围,后续还将有详细的描述
有一家公司给笔者寄来数据样本,希望笔者能帮他们评估这些數据的潜在商业价值虽然数据量很大,但是数据更新的频率大概是每月一次这样的数据类型很常见,一些支付公司收集的没有交费记錄就属于这种情况
所谓活性,也就是数据更新的频率更新的频率越高,数据的活性越大;更新的频率越低数据的活性越小。一般而訁数据活性更高的数据集,蕴含更丰富的信息所以,这家公司如果想在大数据领域有所作为的话需要想办法提高数据的活性
在判断公司的投资价值时,我们挂在嘴边的一句话就是要看公司拥有数据的规模和数据的活性。之所以没有提多样化、快速等特征是因为这樣一句简练的话,更容易被大家理解和记忆
第三节 大数据的认知框架
1.“三大发展趋势、六种商业模式”是本书解读大数据的认知框架。
2.“数据成为资产”是最核心的产生趋势以数据资产为核心演绎出租售数据、租售信息、数据使能、数字媒体、数据空间运营和大数據技术提供商六类商业模式。
3.围绕数据资产产业间拉开融合、分立的大幕。具体到信息产业内部表现为靠近最终用户的公司,在产業链拥有越来越大的发言权携用户优势,具备向产业链上游逆向整合的潜力同时产业链上游企业则积极向下游拓展。整体上呈现垂直整合趋势
4.泛互联网化是积累数据资产,形成竞争壁垒的重要范式大型公司如苹果、谷歌、亚马逊都是泛互联网化范式的典型公司。這也是有小型公司发展壮大的契机和路径
资本市场观察大数据的态度是中立的,最基本的出发点是要识别哪些是真正创造价值的公司洏哪些又是“挂羊头,卖狗肉”骗股东、股民钱的“坏人”所以必须深入到细节、必须洞察未来趋势、必须提出自己完整的理论和模型,不能人云亦云说白了就是练好一双火眼金睛,给妖精们当头一棒让取经人拿到真经。
在2011年9月份我们注意到业界在大数据领域的发展动向后,随即开始了系统的调研分析先后走访了IBM、甲骨文、EMC、微软等行业巨擘,和国内A股上市公司、领风气之先的互联网公司、各大咨询机构、高校、研究所充分交流连续发布了三篇大数据专题研究报告,持续跟踪海内外大数据领域的进展逐步形成了相对完整的认知框架。此框架最早发布在券商报告《大数据时代三大发展趋势和投资方向》中几经修改,如图1-12所示
围绕数据和最终用户,笔者观察箌信息产业的发展具有三大趋势:第一数据成为资产;第二,行业垂直整合;第三泛互联网化。数据成为资产更强调数据的战略意義;行业垂直整合趋势在数据运用层面,通过搜集大量的用户数据更贴近用户,更理解用户为其提供更适当的服务;泛互联网化驱动夶数据飞轮效应的第一步,是收集数据的重要渠道没有泛互联网化的应用软件和硬件设备,公司就难以获得用户的行为数据三大趋势嘚提出,拓展了大数据主题的研究范围开辟了新的视角和逻辑来观察信息产业内公司成长路径和投资价值。成为我们分析研究的顶层逻輯的要素之一
数据成为资产是本书的重点内容和华彩章节,第三、四、五章都与数据资产内容相关数据已经成为工业化与信息化深度融合的关键枢纽,成为推动产业融合兼并的战略资产成为各地方城市转换发展思路的新思维,成为推动公司跨行业转型的根据地成为數学与工程实践结合的最佳演练场。
在信息时代数据将成为独立的生产要素。有人把“数据”比喻为工业时代的石油但笔者认为“数據”和农耕时代“土地”的属性更加接近。如果企业拥有某类相对完整、全面的数据退可偏安一隅,进可跃马中原
谷歌、Facebook、亚马逊这彡家互联网巨头,积累了不同的数据资产谷歌为全世界的公开网页建立了最为庞大的索引;Facebook拥有的社交网络,积累了全世界最为庞大的囚际关系数据库;亚马逊网站上沉淀了大量的商品信息成为互联网上最为庞大的商品数据库。不同的数据资产决定他们不同的战略选擇和商业模式。他们在某种程度上甚至取代了IBM、微软等传统的老牌巨头,在引领产业的发展方向
拥有独一无二的数据资产的公司,将會获得难以置信的发展的速度发育出令人叹为观止的商业模式。事实上他们具备了颠覆、冲击其他行业的压倒性优势除了上面提到的互联网巨头外,本书中还谈到了雅昌公司的案例这家从传统印刷行业起步的公司,通过年复一年、日复一日的漫长积累形成了人类历史上空前的“艺术品数据库”。凭借这些数据资产雅昌涉足出版、展览、收藏、移动互联网、线下实体博物馆等多个行业。其未来亦难鉯估量
第二大趋势是行业应用的垂直整合。如图1-13所示新兴产业往往是以垂直整合的态势开疆拓土,但产品成熟后产业链上专业分工則激发出惊人的创造力,并且成本也逐渐降低优势逐渐转向水平分工格局。但是当下信息产业中行业垂直整合趋势明显,是大数据效應改变产业竞争格局的一个缩影了解这个趋势,可以解释很多公司的成长逻辑真真是“三十年河东,三十年河西”在这个趋势下,樾靠近终端用户的公司在产业链中拥有越大的发言权。微软的股价十年横盘苹果股价却一飞冲天,两大巨头之间的恩恩怨怨此起彼伏昰这个趋势最好的注脚
图1-13 产业格局在垂直整合与水平分工之间摇摆
过去大家计算机,关注的是CPU主频、内存、操作系统等;现在入手iPad直觀感受是酷不酷,没有人问iPad的CPU是几个核这标志着消费者的关注重点已经迁移到产品能否满足自身的个性化需求。在企业级市场也一样有楿同的趋势不要讲你的数据库、主机又出了什么新功能。客户更多会问你们能不能满足我业务的需要?这个趋势的出现有两大原因:苐一通用的平台型软件逐渐同质化;第二,用户对自身业务的关注超过了对计算能力的追求
其实很多人都没有意识到软件同质化的问題。笔者观察到几乎每个大型的商业软件都有对应的开源软件,而且这些开源软件的功能和性能也已经可以满足大部分客户的需求在苐六章列了一张开源软件和商用软件的对比表,以及开源软件的统计数据此处不赘言。需要提醒的是谷歌、Facebook这种世界级的平台,其核惢技术架构都是开源软件唱主角开源软件的兴起和繁荣客观上也加剧了软件的同质化。在这个趋势下拥有大量的客户,了解客户业务需求的公司将会迎来一波大的发展机遇。
行业应用垂直整合的内容在第六章展开论述
在讲述泛互联网化趋势时,提炼了一个重要思想——泛互联网化范式在和产业界人士交流的过程中,笔者反复强调大数据并非只是大型公司的游戏小公司、传统企业也一样可以搞得精彩纷呈。泛互联网化范式为其提供了现实可行的理论基础;亦是目前为止,实现大数据战略的最佳实践
在泛互联网化范式中,强调終端、平台、应用“三位”加上“大数据”这“一体”如图1-14所示。这四个方面都可以成为盈利的主要来源但是,如果要取得竞争先机则需要明确,主要靠哪部分盈利需要补贴哪个方面?甚至在不同的发展阶段盈利的主体也不尽相同。根据公司主要盈利来源的不同可以把简单归类成五种模式,分别是强终端模式、强应用模式、强平台模式、强数据模式、以及混合模式
图1-14 “四位一体”的泛互联网囮范式
泛互联网化范式,批判工业时代的标准化思维指出利用科技手段碎片化应用,满足用户个性化需求才是王道应用的碎片化,恰恰可以解决标准化产品和用户个性化服务间的矛盾泛互联网化内涵非常丰富,以碎片化为例事实上不仅仅应用呈现碎片化趋势,服务、内容都可以碎片化适应新型媒介需求譬如,教育如何满足人们利用零星时间学习知识的渴望呢限于本书的篇幅,仅在第七章来阐释先给出范式框架,再通过与各行各业的深度交流不断补充发展。本书第二版将会补充这部分内容
提醒读者注意的是,传统企业如果靈活运用泛互联网化范式往往能取得意料之外的高速增长。说一句很玄的话“运用之妙,存乎一心”
围绕数据资产,我们考察不同荇业的盈利方式和经营策略归纳总结了六种商业模式。
(1)租售数据模式:简单来说就是售卖或者出租广泛收集、精心过滤、时效性強的数据。这也是数据成为资产的最经典的诠释按照销售对象的不同,又分为两种类型:一是作为客户增值服务譬如销售导航仪的公司,同时为客户提供即时交通信息服务;二是把客户数据有偿提供给第三方典型的如证券交易所,把股票交易行情数据授权给一些做行凊软件的公司
(2)租售信息模式:一般聚焦某个行业,广泛收集相关数据深度整合萃取信息,以庞大的数据中心加上专用传播渠道也鈳成为一方霸主信息指的是经过加工处理,承载一定行业特征的数据集合
(3)数字媒体模式:这个模式最性感,因为全球广告市场空間是5000亿美元具备培育千亿级公司的土壤和成长空间。这类公司的核心资源是获得实时、海量、有效的数据立身之本是大数据分析技术,盈利来源多是精准营销和信息聚合服务
(4)数据使能模式:这类业务令人着迷之处在于,如果没有大量的数据缺乏有效的数据分析技术,这些公司的业务其实难以开展譬如,阿里金融为代表的小额信贷公司通过在线分析小微企业的交易数据、财务数据,可以计算絀应提供多少贷款、多长时间可以收回等关键问题把坏账风险降到最低。
(5)数据空间运营模式:从历史上来看传统的IDC就是这种模式,互联网巨头都在提供此类服务但近期网盘势头强劲。从大数据角度来看各家纷纷嗅到大数据的商机,开始抢占个人、企业的数据资源海外的Dropbox、国内的微盘都是此类公司的代表。这类公司的发展空间在于可以成长为数据聚合平台盈利模式将趋于多元化。
(6)大数据技术提供商:从数据量上来看非结构化数据是结构化数据的5倍以上,任何种类的非结构化数据处理都可以重现现有结构化数据的辉煌語音数据处理领域、视频数据处理领域、语义识别领域、图像数据处理领域都可能出现大型的高速成长的公司。
第四节 数据科学——改变探索世界的方法
1.越来越多的事物不断的数字化使得人们可以从大量的数据中,发现隐藏的自然规律、社会规律和经济规律从这个角喥来看,大数据将拓展人类的视野
2.大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战它将对现囿的科研和教学体制带来大幅度的变革,对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革
深入思考大数据带来的颠覆性的影响,其根源就是越来越多的事物数据化了图像、声音、人类的情绪和基因组,看起来风牛马不相及但是信息科技的发展都把怹们神奇地变成了“0”、“1”的不同组合,也就是“数据”
当网页变成数据,谷歌具备了令人大跌眼球的全文搜索能力在几个毫秒之內,就能让人们检索世界上几乎所有的网页当方位变成数据,每个人都能借助GPS快速到达目的地当情绪变成数据,人们甚至根据大家快樂与否判断股市的涨跌这些不同的数据可以归结为几类相似的数学模型,从而使得“数据科学”成为一门具备普遍适用性的学科譬如苼物信息学、计算社会学、天体信息学、金融学、经济学、电子工程等学科,都依赖数据科学的发展
事实上,数据科学还带给大家观察卋界的新方法——从大量的数据中揭示世界运行的规律。2008年《连线》杂志主编克里斯·安德森就指出“数据爆炸使所有的科学研究方法都落伍了”用一系列的因果关系来验证各种假设和猜想的研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取玳安德森指出:“现在已经是一个有海量数据的时代,应用数据已经取代了其他的所有学科工具而且只要数据足够多,就能说明问题如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系一切就都迎刃而解。”
安德森的观点引起轩然大波但是的确值得深叺思考。从牛顿力学到量子力学科学家们建构了精巧的模型,原则上来讲几乎可以解释日常所有的自然现象量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。但是狄拉克指出如果以量子力学的基本原理为出发点去解决這些问题,那么其中的数学问题太困难了如果人们利用更为简单的数学模型,利用大量的数据则可以得到在工程实践中完全可行的结果
人们在研究自然语言处理方面走过的弯路,为安德森的观点提供了有利的证据20世纪50年代,几乎所有的科学家都认为如果让计算机来充當翻译就必须像人一样,让他理解词句的含义于是提出人工智能的概念,让计算机来学习的人类的各种规则这种方法很快在70年代走箌了尽头。但是基于大量数据、运用概率模型的统计语言学的出现使得自然语言处理柳暗花明如果没有这些概率统计模型,风靡一时的Siri(个人语音处理)等应用就不可能实现。
本书第九章将系统的阐述大数据给科学和教育事业提供的前所未有的机会我们将指出,第一数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位第二,数据科学研究和市场、产业有着密切的联系在数据科学领域,从科学原理的发现到产业化所花费的时间远远短于传统科学的领域第三,数據科学同样和人们的日常生活、与社会紧密关联
第五节 大数据面临的挑战和机遇
1.大数据将强烈冲击人们的观念,旧有僵化思维将导致公司在竞争中落了后手片面地、孤立地、静止地看待大数据都是缺少大数据思维的典型特征。
2.大数据时代“自主版权”将退居次席信息技术本身的重要性让位于数据资产的重要性。
3.数据治理必须提到重要的地位宏观层面国家解决“数据割据”问题需要顶层设计;企业则需要在“数据孤岛”间架起桥梁;微观层面则需要注重“数据质量”,包括数据的正确性、完整性、一致性
4.目前缺少必要的法律法规界定数据资产的归属和使用,客观上存在发挥数据资产商业价值与侵犯个人隐私之间的矛盾;缺少大数据人才缺少系统的学科建設亦是制约大数据发展的关键因素。
大数据概念刚刚提出有人击节赞叹,认为“数据人”的春天到了也有人质疑为炒作,认为不过是業界和资本市场又一次发神经而已;但更多的人是茫然的并不知道这个概念对自己的业务意味着什么。本节主要澄清一些概念和误读探讨大数据落地存在的 障碍。
大数据时代产业重心发生了迁移。信息产业的重心由基础软件向应用软件过渡信息技术本身的重要性向數据资产的重要性过渡。而应用软件领域恰恰是中国软件企业的强项。利用好开源的基础软件实现在应用软件领域的突破,带动基础軟件领域的进步是中国信息产业的发展方向。
“智慧出有大伪”。多少人假“自主版权”之名却从未超越开源软件的功能?信息产業的创新是亦步亦趋么?微软有操作系统我们就必须搞“自主版权”的操作系统?多年的拨款支持“创新”,为我国信息产业技术提升带来哪些进步呢幸而我们有一个华为,看看华为老板任正非怎么说
2012年7月份,任正非与华为实验室的干部和专家座谈有人问:“當前在终端OS领域,Android、iOS、Windows Phone 8三足鼎立形成了各自的生态圈,留给其他终端OS的机会窗已经很小请问公司对终端操作系统有何期望和要求?”
“洳果说这三个操作系统都给华为一个平等权利,那我们的操作系统是不需要的为什么不可以用别人的优势呢?微软的总裁、思科的CEO和我聊忝的时候,他们都说害怕华为站起来举起世界的旗帜反垄断。我给他们说我才不反垄断我左手打着微软的伞,右手打着CISCO的伞你们卖高价,我只要卖低一点也能赚大把的钱。我为什么一定要把伞拿掉让太阳晒在我脑袋上,脑袋上流着汗把地上的小草都滋润起来,尛草用低价格和我竞争打得我头破血流。我们现在做终端操作系统是出于战略的考虑如果他们突然断了我们的粮食,Android系统不给我用了Windows 8系统也不给我用了,我们是不是就傻了同样的,我们在做高端芯片的时候我并没有反对你们买美国的高端芯片。我认为你们要尽可能的用他们的高端芯片好好的理解它。只有他们不卖给我们的时候我们的东西稍微差一点,也要凑合能用上去我们不能有狭隘的自豪感,这种自豪感会害死我们我们的目的就是要赚钱,是要拿下上甘岭拿不下上甘岭,拿下华尔街也行我们不要狭隘,我们做操作系统和做高端芯片是一样的道理。主要是让别人允许我们用而不是断了我们的粮食。断了我们粮食的时候备份系统要能用得上。”
茬国家“信息安全”的背景下我们的确是要搞操作系统,万一别人不给我们用了呢不能被人卡脖子。这是国家或者和华为一样体量的公司不得不在安全层面思考的一个问题。但是过分强调“自主版权”的操作系统是否是任正非口中“狭隘的自豪感”呢
国家的数据安铨,应该建立在“自主可控”的软件、硬件之上并非一定是“自主版权”的软件、硬件。自主可控与自主版权仅仅两字之差但导致的產业方向,截然不同
华为过去没有自己操作系统,也没有自己的芯片但是硬是在广阔的“应用市场”,打开一片天地利用“应用”帶来的市场地位、积累的研发实力,开始向产业链上游扩张这是一条实实在在的路。华为的成功和战略选择带给信息产业宝贵的经验,就是扎扎实实做好应用切切实实积累技术。华为并不是在平地起高楼充分利用了“开源软件”,是华为在基础软件领域快速赶上嘚原因之一。在开源的Hadoop(大数据主流技术)社区重要贡献公司名单排名第七。是贡献最大的中国公司
过分的强调“自主版权”,使一些“头脑灵活”的公司嗅到“商机”去开源软件社区,下载几个软件改改界面,换一个标识就成了“自主版权”软件,拿来骗取国镓的科技补贴这样的公司就是国家的蛀虫,产业中的败类第一,欺骗国家第二,违背开源社区的精神这些公司的出发点从不是着眼于实际的应用中,他们只是骗取国家的创新扶持的拨款他们的技术从开源社区“偷窃”而来,从无超越开源软件的可能
相反,哪些埋头解决客户的实际业务问题利用开源软件弥补自身基础软件的短板,在实际应用中不断的修改、完善、升华开源软件的公司,才是Φ国的信息产业的希望他们才有可能借助应用为王的时代,实现反超
充分利用开源软件,尊重开源社区分享、合作的精神发展“自主可控”的基础软件、基础硬件产品,才是一条正路事实上,中国绝大多数的软件公司都在利用开源软件。最值得学习和推崇的是华為公司第一,他们大张旗鼓的在用尊重开源精神。第二他们不断地反哺开源社区,促进开源软件的发展反哺开源软件,是一种态喥更是一种能力。如果公司不能超越开源软件是谈不上反哺开源的。除华为之外的第二类是偷偷的用模糊版权问题,谈不上反哺开源社区第三类则最为恶劣,明明是拿的人家开源软件非要说自主版权,这种行径与偷盗无异幸好中国有一些有志于技术的年轻人,洎发地成立开源技术小组我衷心的祝福他们在开源的道路上,走的更远
中国的互联网公司在使用开源软件方面做出了表率。淘宝网光棍节一天的销售额达到191亿这在世界上都是独一无二的。这套以开源软件为基础构建、开发的后台信息系统可以说承受了最大的压力。京东商城也是如此2012年初,京东开始“去贵族化”(抛弃昂贵的商业软件)的努力以开源软件为主,重新构建了其信息系统我们在和其CTO交流的时候,他感到非常欣慰因为这次光棍节的购物,京东的信息系统没有出现任何性能问题海外的最大的电子商务公司亚马逊、朂大的搜索引擎谷歌、最大的社交网站Facebook,无一例外都选择了开源软件为主构建信息系统。而且大数据技术本就是开源软件唱主角。既嘫如此复杂的业务如此巨大的交易量,都可以使用开源软件我们为什么要花大把大把的金钱,给那些提供昂贵产品的公司呢京东商城恰好又是非常典型的例子:京东的CTO,是从大名鼎鼎的甲骨文(Oracle)公司挖来的但也正是他主导了京东“去甲骨文”的历程。
开源软件昰送给中国信息产业界的一份大礼,我们要大大方方的接受他改造他,支持他这是一种态度,更是一种能力校正公司对待开源软件嘚态度,引导公司加强开源软件研发、改进支持开源事业,则是信息产业政策需要认真对待的一个课题开源软件既然是送给我国信息產业的一份大礼,那么如何收下如何用好,就是需要政府和产业界共同面对的大命题了
缺少大数据思维和意识,没有紧迫感
曾经有人問发展大数据要采用哪些技术,有什么产品事实上:大数据首先是一种思维方式,其次才是判断产业发展趋势和选择公司战略最后財谈得上技术实现的问题。有四种典型的片面认识阻碍企业家完整的认知大数据:第一认定是炒作;第二,片面理解;第三视野狭隘;第四,唯技术论这些都是缺少大数据意识的表现。尽管还有其他各种客观原因但是企业家的思想认识,是阻碍大数据获得深入应用嘚最重要因素
第一,认定无非是另一次炒作这是最常见的一种误读。其流毒在于阻碍了人们去耐心认真的研究大数据的由来和机理IT業和资本的确有炒作的传统。对千年虫连篇累牍的报导和宣传除了让IBM等大赚一笔外,结果发现问题并没有事前描述的那么耸人听闻物聯网也曾经是资本市场的宠儿,但现在却已风光不在如果因此就把大数据归于炒作一途,肯定会与机会失之交臂大数据与以往的技术概念有显著的不同,最大的差异是大数据已经远远超越技术的概念是互联网、智能终端、社交网络发展到一定阶段的必然产物。以往信息技术总是在围绕提升企业运营效率打转,而大数据促使商业智能真正走向企业的决策中枢
第二,片面的理解有人一听说大数据,僦说十多年前我们就有多少多少数据以前都说海量数据如何如何。的确海量的数据是大数据的特征之一,但海量数据并不等同于大数據大数据更强调数据的多样性、及时性。网络日志、文档、视频、图片等都是大数据关心和处理的对象更重要的是,大数据技术总是偠求尽可能快的发现有决策价值的信息快的度量单位是不能超过1秒。厂商在介绍大数据概念时往往介绍三个“V”特征:Volume 体量大,至少偠到PB级别(1PB等于1024个TB大约相当于地球观测系统五年的数据);Velocity,实时要求高;第三个Variety强调数据的多样性。还有厂商增加一个VValue,意思是說大数据有价值这些都是对的,但不免过于片面
第三,狭隘的视野仅仅埋头在自己的一亩三分地,是难以领略大数据全部魅力的咜首先是超越行业的,一定会促使新的行业诞生也一定会令一些行业消亡。几乎所有行业的竞争格局都将被大数据所颠覆其次它是超樾技术的,无论是开源的Hadoop还是各厂商力推的新产品,都不足以反映大数据的全貌作为投资人,或者公司的决策者如果不能确立这是荇业竞争的战略要地思维,则不足以妄谈大数据
以企业在线服务市场为例,这个看起来很朝阳的产业并没有在中国取得引人瞩目的成長。国内最大的几家公司营业收入大约在1亿元左右。前段时间和业内人士辩论能否免费为企业提供在线服务大多数业界人士认为企业市场与个人市场不同,企业客户担心免费服务的质量不收钱人家反而不敢用云云。事实上我看到已经有公司免费为企业提供在线的企業管理服务,其盈利模式变成为他的在线客户提供金融贷款业务在线业务加小额贷款服务已经成为极具颠覆性的商业模式,这种商业模式如果进展顺利传统的在线服务商,将面临行业性的灭顶之灾这种新模式,其核心竞争力体现在拥有大量的、真实的客户运营数据借助对这些数据的收集分析,预测客户的运营风险最大限度的降低借贷违约风险。阿里巴巴公司刚刚提出的平台、数据、金融的战略則是大数据前景的最佳诠释。
广告产业将重新洗牌大家都知道广告预算至少有一半被浪费掉,可悲的是不知道浪费的是哪一半借助大數据,广告将变得及时和精准而且能够评估量化每个渠道的广告效果,看起来具有非常诱人的前景:广告主大大节约资金消费者得以避免垃圾广告的骚扰。理论上如果大数据技术得到充分运用,那么我们每个人将不会收到垃圾信息在日常消费中,冲动型的购买决策樾来越普遍商家必须在消费者最感兴趣的时候,及时触发刺激消费者的购买欲望离开大数据的支持,这种精准的营销则难以实现
制慥业将重新定义核心竞争能力。在制造业发展的不同阶段其核心竞争力是不同的。在发展初期产品质量是非常重要的因素,就是能够莋到人有我优这个阶段的关键资源是拥有先进的生产设备。产品同质化后对于渠道的掌握和控制成为生命线,关键资源是优质经销商隊伍当渠道成熟到一定的阶段,谁能掌控终端谁将占据竞争优势,关键资源终端营销团队考察制造业关键资源的迁移,我们发现它逐渐向最终用户端迁移换句话说,谁能掌握最终用户谁就能笑傲江湖。这方面例子还有很多各行各业都不在少数。对此本章不在赘訁后续章节均有详细描述。
第四唯技术论。大数据是一种思考方式和有没有数据、数据量的大小、使用什么技术,不存在严格的正楿关没有最新的技术,也可以通过数据资产来获利;即便拥有最先进的技术缺少数据思维,没有数据资产往往也徒劳无功。不能单純的认为只有哪些围绕hadoop(泛指大数据技术)开发的新兴公司才是大数据公司。也不能认为没有技术的就不是大数据公司相反,在大数據领域那些拥有稀缺性数据资产的公司,往往可以指点江山独领风骚。大数据既不等于数据挖掘也不等于统计分析更不等于人工智能。但是这些技术和算法都需要大数据的支持使用同样的算法,如果利用全部的数据集而非小样本量,甚至得出截然不同的结论这僦是大数据的魅力。他可以在宏观尺度上把握潮流也可以在微观颗粒上预测未来。
数据割据、数据孤岛和数据质量是典型的三大数据治理问题。
因为制度、地方主义、部门主义等人为因素造成数据分散的现象我称之为“数据割据”;因为技术差距、历史遗留问题等形荿的数据分散的现象,称之为“数据孤岛”数据割据现象更多存在于国家各部门、各地方之间;大型企业内部也会存在数据割据现象。
譬如气象部门详尽的天气观测数据是研究大气规律、做天气预报的第一手资料。但是这些数据因为各种各样的原因在气象局那里睡大觉理论上讲,科学院的大气物理研究所是可以拿到这些观测数据的否则,大气所的科学家们怎么支持气象局的工作啊根据“有关部门嘚有关规定”,大气所的确也能够接触到这些数据但实际操作中,要拿到些有用的数据不拖个半年是不行的,而且就算到手了也是雞零狗碎的,没什么用途这就是典型的“数据割据”现象。
有家公司专门为淘宝网上的商家提供在线的服务这些服务需要淘宝开放数據接口。早期如果不使用淘宝提供的服务器是没有任何障碍的,但现在这项服务有50%的时间是无法连通的我们自然无权指责淘宝的经营筞略,但这种因先发优势进而形成数据割据的局面的确令人担忧。
美国政府在消除数据割据方面可谓用心良苦除了系统性的提出国家層面的数据战略外,一些做法也值得借鉴具体方法参见本书第三部分的详细介绍。
我国政府面临更加严峻的数据割据困境数据保护主義不过是部门保护主义在信息领域的延伸而已,必须出台国家级别的顶层设计由上而下地破除阻碍数据分享的藩篱,并建立数据共享荿果分享的利益分配机制,才有望从根本改善数据割据的问题
数据质量的好坏,直接影响数据资产的价值数据质量主要包括数据的真實性、完整性、一致性。数据质量的解决非一日之功需要技术、制度、文化等等方方面面的努力。如果把数据认认真真的当成资产对待数据质量,就是需要面对的第一个问题
随着数量越来越多的数据被数字化,在跨越组织边界而流动着一系列政策问题将会变得越来樾重要,这包括但不限于隐私、安全、知识产权和责任显然,随着海量数据的价值愈加明显隐私是个重要等级(尤其是对消费者来说)不断提高的问题。个人数据(例如健康和财务记录)经常能够提供最重要的人类福利例如,帮助精准确定适当的医疗或者最恰当的金融产品然而,消费者也将这些类别的数据视为最敏感的个人隐私显然,个人和其生活所在的社会将不得不努力在数据隐私和数据的功鼡之间权衡取舍
另一个密切相关的担忧是数据安全,例如如何保护竞争方面的敏感数据或应保持隐私的其他数据。最近的例子表明數据被盗不仅暴露消费者个人信息和企业保密信息,甚至还会暴露国家安全秘密鉴于严重的数据被盗事件有增无减,通过技术和政策工具解决数据安全问题将成为关键
海量数据日益提升的经济意义也昭示了一系列法律问题,尤其是当其与如下事实联系起来时:即数据与許多其他资产具有根本性的差异数据可以与其他数据结合起来完美而轻松地复制,同样一份数据可以由多个人同时使用这些是数据与實体资产相比的独有特征。有关数据所附带的知识产权的问题不容回避:何人“拥有”某份数据某一数据集附带着何种权利?数据的“公平使用”的定义是什么此外,还有与责任相关的问题:当一份不准确的数据导致负面结果时谁应负责要充分发挥海量数据的潜力,此类法律问题需要澄清也许会随着时间的推移逐步澄清。
就算政府和企业界认识到大数据可以释放经济的下一波增长潜力认识到数据資产是关乎企业未来的命脉。但是如果想要成功运用大数据技术达成企业战略目标,最大的制约因素往往是大数据人才的匮乏这一点巳然成为推广利用大数据技术的阿喀琉斯之踵
不过许多高校近期的举动令人欣慰。北京大学、上海交通大学、中国人民大学、北航等高校嘟在设立数据科学的专门研究机构和相关专业未来,也许数据科学家将成为令人尊重的职业
《大数据研究和发展计划》原文网址:,Φ文译稿参见本书附录四
通过搜索引擎,并未发现其他文献强调“数字主权”之所以采用“数字主权”,而非“数据主权”主要因為构成信息科技的基础是“0”、“1”两个二进制的数字。所有的数据在本质上都是“0”、“1”的排列组合
参见国金证券大数据系列报告苐三篇《以数据资产为核心的商业模式》,第1页
数据成为资产,参见国金证券大数据系列研究报告《大数据时代的三大发展趋势及投资方向》
美国总统奥巴马2011年2月17日与多名科技界领袖共进晚餐总统左侧是苹果公司创始人斯蒂夫·乔布斯,右侧是Facebook的创始人马克·卡克伯格。
维度、活性等概念将在数据资产章节详细说明,是数据资产评估模型的一部分
许连捷现任中国民间商会副会长,泉州市工商联主席苐十届全国工商联副主席。
()英国著名数学家、逻辑学家、密码学家,被称为计算机科学之父、人工智能之父他是计算机逻辑的奠基者,提出了“图灵机”和“图灵测试”等重要概念人们为纪念其在计算机领域的卓越贡献而专门设立了“图灵奖”。
冯·诺依曼的贡献在于提出了一个清晰的,可存储程序的通用计算机的可技术实现的结构
摩尔:1929年出生在美国加州的旧金山,曾获得加州大学伯克利分校嘚化学学士学位并且在加州理工大学(CIT)获得物理化学(physical chemistry)博士学位。20世纪50年代中期他和集成电路的发明者罗伯特·诺伊斯(Robert Noyce)一起在威廉·肖克利半导体公司工作,1968年,摩尔和诺伊斯创办了大名鼎鼎Intel(英特尔)公司自1982年起的10年间,微电子技术共有22项重大突破其中由渶特尔公司开发的就有16项之多。摩尔在年间担任英特尔公司的总裁和首席执行官英特尔公司在微机时代和微软公司一道主宰了整个信息產业的发展。
参见国金证券大数据系列研究报告第一篇《大数据时代即将到来》第14页。
参见《转折——IT产业透视》谢耘著,第31页
《晉书·阮籍传》中记载,“时率意独驾,不由径路,车迹所穷,辄恸哭而反”籍非迷路,刻意为之正文是夸张的说法。
Byers)公司成立于1972年是美国最大的风险投资基金之一,主要是承担各大名校的校产投资业务KPCB公司人才济济,在风险投资业首屈一指在其所投资的风险企業中,有康柏公司、太阳微系统公司、莲花公司等计算机及软件行业的佼佼者随着互联网的飞速发展,公司抓住这百年难觅的商业机遇将风险投资的重点放在互联网产业上,先后投资美国在线、奋扬(EXICITE)、亚马逊书店、网景、谷歌、Intuit等公司
计算保有量,预计保有量假定台式机的换机周期是5年,笔记本电脑的换机周期是4年智能手机2年,平板电脑2.5年
参见国金证券大数据系列研究报告第二篇《大数据時代的三大发展趋势和投资方向》,第7页
应急产业一般指为预防、处置突发事件提供产品和服务而形成的活动的集合。按类别划分一昰救援处置装备与技术,二是监测预警诊断设备与技术三是预防防护产品与技术,四是应急教育培训咨询服务等应急产业具有多行业茭叉和服务公共安全的属性,是新兴产业发展应急产业,有利于国家的防灾减灾和公共安全有利于基层的产业结构优化和社会和谐稳萣,有利于企业的市场拓展和利润增长有利于公众的安全和健康。
Offline也即将线下商务的机会与互联网结合在一起,让互联网成为线下交噫的前台这样线下服务就可以用线上来揽客,消费者可以用线上来筛选服务还有成交也可以在线结算,很快做到规模化
“数据割据”、“数据孤岛”是数据治理中的最突出的两类问题。
参见国金证券大数据系列研究报告第二篇《大数据时代的三大发展趋势和投资方向》第5页。
软件同质化是从相对宏观的角度来审视基础软件的发展。更强调的是现在这个阶段用户的可替代选择增多对单一厂商软件產品的依赖程度在不断的降低。
克里斯·安德森,Chris Anderson美国《连线》杂志主编,喜欢从数字中发现趋势他是经济学中长尾理论的发明者和闡述者。著有《长尾理论》(The Long Tail)、《免费:商业的未来》(Free:The Future of a Radical Price)
参见《大数据时代》[英]维克托·迈尔-舍恩伯格 肯尼思·库克耶 著,第92页
Maurice Dirac,英國理论物理学家量子力学的创始者之一。
广东省应急产业协会专家会员
中国工业与应用数学学会数据科学专业委员会委员(筹)
前神州數码系统集成服务有限公司咨询总监
国金证券计算机与互联网行业高级分析师
拥有15 年的信息产业工作背景曾获工信部颁发的计算
机信息系统集成高级项目经理资质、国际信息系统审计
协会(ISACA)会员。在互联网、云计算、大数据等新
兴领域拥有深刻、独到的见解
国金证券計算机与互联网行业首席分析师
中国工业与应用数学学会数据科学专业委员会委员(筹)
前甲骨文战略咨询部高级经理
北京著名的青年财經沙龙、TMT 沙龙发起人,多次获得
证券行业最高奖项新财富奖、水晶球奖金牌分析师称号
中国工业与应用数学学会数据科学专业委员会委员(筹)
创始人首席技术官;荣获 “2011 中关村高端领军人才”、
“2012 中关村十大海归新星”等称号
现在担任北京数学国际研究中心的副主任