学电子商务第三年挂科三分之二,有必要重读音节吗?

中国石油大学电子商务第二次在线作业_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
中国石油大学电子商务第二次在线作业
上传于||文档简介
&&答​案
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩4页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢如何成为一名数据科学家?
来源:互联网
【我自己粗浅的理解为需要以下几个方面: 1. 业务知识 2. 数理统计和数据分析 3. 计算机相关知识 3.1 数据处理与收集(ETL?) 3.2 机器学习和数据挖掘 这几方面完全是自己的一个猜测,恳请大牛们不惜赐教!】
"Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到Twitter的data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1)学好python。现在几乎所以公司的数据都可以api给你,而python的数据处理能力强大且方便。加之在machine learning的很多算法上,python也独俏一方。另外,它的简明方便迅速迭代开发,15分钟写完个算法就可以看效果了。除此之外,py还有点酷酷的感觉。任何程序拿matlab和c++都是可以写的,不过我真没认识过哪个d愿意自己把自己扔那个不酷的框框里:D对不规则输入的处理也给python一个巨大的优势。通常来说,在我现在日常的工作里,所有的数据都是以纯文本但是非格式的形式存储的(raw text, unstructured data)。问题在于,这些文本不可以直接当作各种算法的输入,你需要分词,分句提取特征整理缺失数据除掉异类(outlier)在这些时候,python可谓是神器。这里做的1-4都可以直接在scikit-learn里面找到对应的工具,而且,即使是要自己写一个定制的算法处理某些特殊需求,也就是一百行代码的事情。简而言之,对于数据科学面临的挑战,python可以让你短平快地解决手中的问题,而不是担心太多实现细节。2)学好统计学习略拗口。统计学习的概念就是“统计机器学习方法”。统计和计算机科学前几十年互相平行着,互相造出了对方造出的一系列工具,算法。但是直到最近人们开始注意到,计算机科学家所谓的机器学习其实就是统计里面的prediction而已。因此这两个学科又开始重新融合。为什么统计学习很重要?因为,纯粹的机器学习讲究算法预测能力和实现,但是统计一直就强调“可解释性”。比如说,针对今天微博股票发行就上升20%,你把你的两个预测股票上涨还是下跌的model套在新浪的例子上,然后给你的上司看。Model-1有99%的预测能力,也就是99%的情况下它预测对,但是Model-2有95%,不过它有例外的一个附加属性——可以告诉你为什么这个股票上涨或者下跌。试问,你的上司会先哪个?问问你自己会选哪个?显然是后者。因为前者虽然有很强的预测力(机器学习),但是没有解释能力(统计解释)。而作为一个数据科学家,80%的时间你是需要跟客户,团队或者上司解释为什么A可行B不可行。如果你告诉他们,“我现在的神经网络就是能有那么好的预测力可是我根本就没法解释上来”,那么,没有人会愿意相信你。具体一些,怎么样学习统计学习?先学好基本的概率学。如果大学里的还给老师了(跟我一样),那么可以从MIT的概率论教材【1】入手。从第1章到第9章看完并做完所有的习题。(p.s.面试Twitter的时候被问到一个拿球后验概率的问题,从这本书上抓来的)。了解基本的统计检验及它们的假设,什么时候可以用到它们。快速了解统计学习有哪些术语,用来做什么目的,读这本【5】。学习基本的统计思想。有frequentist的统计,也有bayesian的统计。前者的代表作有【2】,后者看【3】。前者是统计学习的圣书,偏frequentist,后者是pattern recognition的圣书,几乎从纯bayesian的角度来讲。注意,【2】有免费版,作者把它全放在了网上。而且有一个简易版,如果感觉力不从心直接看【2】,那么可以先从它的简易版开始看。简易版【4】是作者在coursera上开课用的大众教材,简单不少(不过仍然有很多闪光点,通俗易懂)。对于【3】,一开始很难直接啃下来,但是啃下来会受益匪浅。注意,以上的书搜一下几乎全可以在网上搜到别人传的pdf。有条件的同学可以买一下纸制版来读,体验更好并且可以支持一下作者。所有的书我都买了纸制版,但是我知道在国内要买本书有多不方便(以及原版书多贵)。读完以上的书是个长期过程。但是大概读了一遍之后,我个人觉得是非常值得的。如果你只是知道怎么用一些软件包,那么你一定成不了一个合格的data scientist。因为只要问题稍加变化,你就不知道怎么解决了。如果你感觉自己是一个二吊子数据科学家(我也是)那么问一下下面几个问题,如果有2个答不上来,那么你就跟我一样,真的还是二吊子而已,继续学习吧。为什么在神经网络里面feature需要standardize而不是直接扔进去对Random Forest需要做Cross-Validatation来避免overfitting吗?用naive-bayesian来做bagging,是不是一个不好的选择?为什么?在用ensembe方法的时候,特别是Gradient Boosting Tree的时候,我需要把树的结构变得更复杂(high variance, low bias)还是更简单(low variance, high bias)呢?为什么?如果你刚开始入门,没有关系,回答不出来这些问题很正常。如果你是一个二吊子,体会一下,为什么你跟一流的data scientist还有些差距——因为你不了解每个算法是怎么工作,当你想要把你的问题用那个算法解决的时候,面对无数的细节,你就无从下手了。说个题外话,我很欣赏一个叫Jiro的寿司店,它的店长在(东京?)一个最不起眼的地铁站开了一家全世界最贵的餐馆,预订要提前3个月。怎么做到的?70年如一日练习如何做寿司。70年!除了丧娶之外的假期,店长每天必到,8个小时工作以外继续练习寿司做法。其实学数据科学也一样,沉下心来,练习匠艺。3)学习数据处理这一步不必独立于2)来进行。显然,你在读这些书的时候会开始碰到各种算法,而且这里的书里也会提到各种数据。但是这个年代最不值钱的就是数据了(拜托,为什么还要用80年代的“加州房价数据”?),值钱的是数据分析过后提供给决策的价值。那么与其纠结在这么悲剧的80年代数据集上,为什么不自己搜集一些呢?开始写一个小程序,用API爬下Twitter上随机的tweets(或者weibo吧。。。)对这些tweets的text进行分词,处理噪音(比如广告)用一些现成的label作为label,比如tweet里会有这条tweet被转发了几次尝试写一个算法,来预测tweet会被转发几次在未见的数据集上进行测试如上的过程不是一日之功,尤其刚刚开始入门的时候。慢慢来,耐心大于进度。4)变成全能工程师(full stack engineer)在公司环境下,作为一个新入职的新手,你不可能有优待让你在需要写一个数据可视化的时候,找到一个同事来给你做。需要写把数据存到数据库的时候,找另一个同事来给你做。况且即使你有这个条件,这样频繁切换上下文会浪费更多时间。比如你让同事早上给你塞一下数据到数据库,但是下午他才给你做好。或者你需要很长时间给他解释,逻辑是什么,存的方式是什么。最好的变法,是把你自己武装成一个全能工作师。你不需要成为各方面的专家,但是你一定需要各方面都了解一点,查一下文档可以上手就用。会使用NoSQL。尤其是MongoDB学会基本的visualization,会用基础的html和javascript,知道d3【6】这个可视化库,以及highchart【7】学习基本的算法和算法分析,知道如何分析算法复杂度。平均复杂度,最坏复杂度。每次写完一个程序,自己预计需要的时间(用算法分析来预测)。推荐普林斯顿的算法课【8】(注意,可以从算法1开始,它有两个版本)写一个基础的服务器,用flask【9】的基本模板写一个可以让你做可视化分析的backbone。学习使用一个顺手的IDE,VIM, pycharm都可以。4)读,读,读!除了闭门造车,你还需要知道其它数据科学家在做些啥。涌现的各种新的技术,新的想法和新的人,你都需要跟他们交流,扩大知识面,以便更好应对新的工作挑战。通常,非常厉害的数据科学家都会把自己的blog放到网上供大家参观膜拜。我推荐一些我常看的。另外,学术圈里也有很多厉害的数据科学家,不必怕看论文,看了几篇之后,你就会觉得:哈!我也能想到这个!读blog的一个好处是,如果你跟他们交流甚欢,甚至于你可以从他们那里要一个实习来做!betaworks首席数据科学家,Gilad Lotan的博客,我从他这里要的intern :D Ed Chi,六年本科硕士博士毕业的神人,google data science Hilary Mason,bitly首席科学家,纽约地区人尽皆知的数据科学家:在它们这里看够了之后,你会发现还有很多值得看的blog(他们会在文章里面引用其它文章的内容),这样滚雪球似的,你可以有够多的东西早上上班的路上读了:)5)要不要上个研究生课程?先说我上的网络课程:前者就不说了,人人都知道。后者我则更喜欢,因为教得更广阔,上课的教授也是世界一流的机器学习学者,而且经常会有一些很妙的点出来,促进思考。对于是不是非要去上个研究生(尤其要不要到美国上),我觉得不是特别有必要。如果你收到了几个著名大学数据科学方向的录取,那开开心心地来,你会学到不少东西。但是如果没有的话,也不必纠结。我曾有幸上过或者旁听过美国这里一些顶级名校的课程,我感觉它的作用仍然是把你领进门,以及给你一个能跟世界上最聪明的人一个交流机会(我指那些教授)。除此之外,修行都是回家在寝室进行的。然而现在世界上最好的课程都摆在你的面前,为什么还要舍近求远呢。总结一下吧我很幸运地跟一些最好的数据科学家交流共事过,从他们的经历看和做事风格来看,真正的共性是他们都很聪明——你也可以他们都很喜欢自己做的东西——如果你不喜欢应该也不会看这个问题他们都很能静下心来学东西——如果足够努力你也可以【1】【2】Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. 免费版【3】Bishop, Christopher M. Pattern recognition and machine learning. Vol. 1. New York: springer, 2006.【4】 免费版【5】Wasserman, Larry. All of statistics: a concise course in statistical inference. Springer, 2004.【6】【7】【8】【9】
Han Hsiao:
-版本更新,日更新一些内容。-如果展开讲,这个问题可以写一篇综述了。最近刚好有空,打算认真写写。仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源"数据科学"(DataScience)起初叫"datalogy "。最初在1966年由Peter Naur提出,用来代替"计算机科学"(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy,他是这个学会的第一任主席。Algol 60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是“计算科学界的诺贝尔奖”。)1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。1998年,C.F. Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据的科学统计数据的科学家。 (吴教授于1987年获得COPSS奖,2000年在台湾被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣。)2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志。2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用。 2005年,美国国家科学委员会发表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",其中给出数据科学家的定义:"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是:"进行富有创造性的查询和分析。" 2012年,O'Reilly媒体的创始人 列出了世界上排名前7位的数据科学家。Larry Page,谷歌CEO。Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家。Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家。Elizabeth Warren,Massachusetts州美国参议院候选人。Todd Park,人类健康服务部门首席技术官。Sandy Pentland,麻省理工学院教授。Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家。具体有时间再补充,感兴趣的朋友可以一下他们的文献。关于数据科学家的更多讨论:你能列出十个著名的女性数据科学家吗?谁是最富有的数据科学家?请列出对大数据最具有影响力的20个人?二、数据科学家的定义数据科学(Data Science)是从数据中提取知识的研究,关键是科学。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来,数据科学家们需要精通一门、两门甚至多门学科,同时使用数学,统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。曾经投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.Anjul Bhambhri,IBM的大数据产品副总裁。数据科学家是一个好奇的,不断质疑现有假设,能盯着数据就能指出趋势的人。这就好像在文艺复兴时期,一个非常想为组织带来挑战并从挑战中学习的人一样。Jonathan Goldman,LinkedIn数据科学家。2006年的6月份进入商务社交网站LinkedIn,当时LinkedIn只有不到800万用户。高德曼在之后的研究中创造出新的模型,利用数据预测注册用户的人际网络。具体来讲,他以用户在LinkedIn的个人资料,来找到和这些信息最匹配的三个人,并以推荐的形式显示在用户的使用页面上——这也就是我们熟悉的"你可能认识的人(People you may know)"。这个小小的功能让LinkedIn增加了数百万的新的页面点击量(数据挖掘的应用典型之一推荐系统)。John Rauser, 亚马逊大数据科学家。数据科学家是工程师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力;同时也需要有像统计学家一样萃取、分析数据价值的本事,二者缺一不可。Steven Hillion, EMC Greenplum数据分析副总裁。数据科学家是具有极强分析能力和对统计和数学有很深研究的数据工程师。他们能从商业信息等其他复杂且海量的数据库中洞察新趋势。Monica Rogati, LinkedIn资深数据科学家。所有的科学家都是数据学家,因为他们整天都在和海量数据打交道。在我眼中,数据学家是一半黑客加一半分析师。他们通过数据建立看待事物的新维度。数据学家必须能够用一只眼睛发现新世界,用另一只眼睛质疑自己的发现。Daniel Tunkelang,LinkedIn首席数据科学家。我是bitly 首席科学家Hilary Mason的忠实崇拜者。关于这个新概念的定义我也想引用她的说法:数据科学家是能够利用各种信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。Michael Rappa,北卡罗莱纳州立大学教授。尽管数据科学家这个名称最近才开始在硅谷出现,但这个新职业的产生却是基于人类上百年对数据分析的不断积累和衍生。和数据科学家最接近的职业应该是统计学家,只不过统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了更多的行业和领域。林仕鼎,百度大数据首席架构师。如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。最后引用Thomas H. Davenport(埃森哲战略变革研究院主任) 和 D.J. Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结数据科学家需要具备的能力:数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心)把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力)新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力)数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力)当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通)他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力)他们会把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。(决策力)三、数据科学家所需硬件技能《数据之美 Beautiful Data》的作者Jeff Hammerbacher在书中提到,对于 Facebook 的数据科学家“我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用 Python 实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了数据科学家这个角色。”(1) 计算机科学一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。(2) 数学、统计、数据挖掘等除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statistical libraries,,,,。(3) 数据可视化(Visualization)信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。(4) 跨界为王麦肯锡认为未来需要更多的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行,同时连接的IT ,数据分析和业务部门的团队。如果缺少“translators“,即使拥有高端的数据分析策略和工具方法也是于事无补的。 The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.天才的”translators“非常罕见。但是大家可以各敬其职(三个臭皮匠臭死诸葛亮),数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法,分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。推荐关注:四、数据科学家的培养位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学(Northwestern University),就是其中之一。西北大学决定从2012年9月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院,并开始了招生工作。西北大学对于成立该研究生院是这样解释的:“虽然只要具备一些Hadoop和Cassandra的基本知识就很容易找到工作,但拥有深入知识的人才却是十分缺乏的。”此外,该研究生院的课程计划以“传授和指导将业务引向成功的技能,培养能够领导项目团队的优秀分析师”为目标,授课内容在数学、统计学的基础上,融合了尖端计算机工程学和数据分析。课程预计将涵盖分析领域中主要的三种数据分析方法:预测分析、描述分析(商业智能和数据挖掘)和规范分析(优化和模拟),具体内容如下。(1) 秋学期* 数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)* 定量方法(时间轴分析、概率模型、优化)* 决策分析(多目的决策分析、决策树、影响图、敏感性分析)* 树立竞争优势的分析(通过项目和成功案例学习基本的分析理念)(2) 冬学期*
数据库入门(数据模型、数据库设计)*
预测分析(时间轴分析、主成分分析、非参数回归、统计流程控制)*
数据管理(ETL(Extract、Transform、Load)、数据治理、管理责任、元数据)*
优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法))(3) 春学期*
大数据分析(非结构化数据概念的学习、MapReduce技术、大数据分析方法)*
数据挖掘(聚类(k-means法、分割法)、关联性规则、因子分析、存活时间分析)*
其他,以下任选两门(社交网络、文本分析、Web分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型)(4) 秋学期*
风险分析与运营分析的计算机模拟*
软件层面的分析学(组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展现与传达方法)(EMC的在线课程:(EMC的在线课程:,收费T_T,大家可以了解下学习路径)(5)分享一些免费的课程以下课程免费,讲师都是领域的专家,需要提前报名,请注意开班的时间。:统计学。:机器学习。:数据分析的计算方法。:大数据。:数据科学导论。:数据分析。名校课程,需要一定的英语基础和计算机基础::麻省理工学院的统计思维与数据分析课。概率抽样,回归,常见分布等。:麻省理工学院的数据挖掘课程,数据挖掘的知识以及机器学习算法。:莱斯大学的数据可视化,从统计学的角度分析信息可视化。: 哈佛大学,如何在数学计算与数据交互可视化之间架起桥梁。:加州大学伯克利分校数据可视化。:两个MIT的数据研究生,如何分析处理可视化数据。:哥伦比亚大学,数据分析方法。需要一定的数据基础。:加州大学伯克利分校,可扩展的机器学习方法。从硬件系统,并行化范式到MapReduce+Hadoop+BigTable,非常全面系统。五、数据科学家的前景((,关于数据科学家的研究)Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes. Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes. EMC预测,按照目前的情况数字宇宙以每两年一番的速度倍增,在2020年将到达44ZB(1ZB=1.4113e+21B)。EMC做出了5点比较大胆的预测。In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.EMC预测在2017年左右新兴的市场将超越成熟市场,东亚国家是最具潜力的引爆点。(大家是不是有点小激动,前景一片光明)六、结束语推荐网站: (数据科学中心,大牛云集,资源丰富,讨论者热情,各种课程)祝每一个DMer都挖掘到金矿和快乐:)参考文献:[1].[2].《大数据的冲击》. 城田真琴.
野村综合研究所创新开发部高级研究员、IT分析师,日本政府“智能云计算研究会”智囊团成员[3].麦肯锡. [4].EMC. [5].[6].[7].[8].[9].[10].[11].[12].
推荐一亩三分地W大的系列文章:
本文来源: 译文创见数据分析到底是什么?很多人都在嘴边讨论它们,却没有几个人真正见过它。这是当下科技行业最为火爆的职位,今天就让我们走进 Twitter 的数据分析世界,看看科技公司对于一个数据分析师的要求是什么?他们的实际工作内容究竟是哪些?Robert Chang 在 Twitter 工作两年了。根据他个人的工作经历,Twitter 数据分析(以下简称为 DS)有了下面三个层面的变化:1.机器学习已经在 Twitter 多个核心产品中扮演越来越重要的角色,而这之前完全是「机器学习」的禁区。最典型的例子就是「当你离开时」这个功能。当用户离开页面或者电脑,去干别的事情后再次返回页面,电脑会立刻给你推送出来某些由你关注的人所发出,而有可能被你错过的「优质内容」。2.开发工具越来越优秀了。整个团队摆脱了对 Pig 的依赖,全新的数据管道是在 Scalding 中写出来的。3.从团队组织上而言,Twitter 已经转向了一个嵌入式的模型中。其中数据分析比以往更加紧密地与产品 / 工程团队发生着联系。在 Twitter 的工作确实是令人兴奋的,因为你能站在这个平台上,引领目前世界最前沿的数据科技,打造最具竞争力的优势。而同时,人们对于大数据的渴望也一天比一天高。Dan Ariely 曾经有一句话说得特别好:「大数据其实有点儿像青少年的性。每一个人都兴致勃勃地谈论它,但是没有任何一个人真的知道该怎么做。每一个人都觉得身边的人都在尝试,为了不落人后,于是每个人都在外面宣城自己也已经有『伴儿』了」现如今,有太多的人在如何成为一名优秀称职的数据分析师上表达着看法,给出自己的建议。Robert Chang 毫无疑问也是受益者。但是他回过头来再想想大家的讨论,会觉得人们往往更加侧重于去谈「技术」、「工具」、「技能组合」,而在 Chang 看来,那些东西确实很重要,但是让新人们知道数据分析师每一天的生活到底是什么样子的,具体的工作内容都是什么,这也非常重要。于是,Chang 凭借着自己在 Twitter 工作两年的经历,以自己作为例子,首次打开 Twitter 数据分析师这扇神秘的大门。A 型数据分析师 VS B 型数据分析师Chang 在没来 Twitter 之前,总觉得数据分析师一定是在任何领域都能看堪称「独角兽」,不管是数据还是数学专业,都是顶尖人才。除了技术上很牛之外,书面写作和口头交流的能力也会特别强。更重要的是他们能够分清楚当下工作的轻重缓急,领导和管理一个项目团队。是啊,如今本身就是以数据为主导的文化,作为「数据分析师」,当然要给这个文化注入灵魂与活力啊!在 Chang 加入 Twitter 的几个月后,他逐渐意识到:符合上述形容的「独角兽」确实存在,但是对于大部分人来说,上述的要求未免有点儿太不切实际了。人们没有办法做到面面俱到。后来,Chang 通过 Quora 中的一篇回答,更深刻地理解了数据分析师的角色。在那篇文章中,数据分析师分成了两种类型:A 型数据分析师: 他们主要负责「分析」。他们最关心数据背后的意义,往往使用统计等方式探知真相。其实他们的工作有点儿像「统计学家」,但是不一样的地方是,统计学专业涉及的内容他们统统掌握,但是他们还会一些统计学课本里面压根不曾出现的内容:比如数据清洗,如何处理超大数据组,数据视觉化,有关数据层面的报告撰写等等。B 型数据分析师:B 型负责「建造」。他们跟前一种分析师有着相似的统计学背景,但他们同时还是非常牛叉的程序员,又或者是训练有素的软件工程师。B 型数据分析师往往感兴趣于「如何利用数据来生产」。他们建立一些能够与用户互动的模型,往往以「推荐 / 推送」的形式出现,比如「你也许会认识的人」,「广告」,「电影」,「搜索结果」等等功能。Chang 看到这样清楚的划分,非常后悔如果早几年有这么清楚的概念认识该多好啊。这样他就能够有选择性的发力,择其一方向来继续发展。这是数据分析师职场规划首先要考虑的标准。Chang 的个人专业背景是「数学」、「运营研究」、「统计学」。所以他更倾向于把自己定位于 A 型数据分析师,但是与此同时他对 B 型分析师能够涉及那么多的工程开发工作而向往不已。初创公司早期、快速发展的初创公司、以及实现规模化发展的初创公司中的数据分析师职位区别在选择投身于科技行业的时候,最经常遇到的一个问题就是到底是加入一个大的科技公司好呢?还是加入一个小的科技公司好。在这个话题上已经有很多争论了,但是在「数据分析」上面的争论并不是很多。所以在本章节要具体谈到的是,不同公司的规模、发展阶段中,数据分析师不同的角色定位。处于不同发展阶段的科技公司生产数据的量与速度都是不一样的。一个还在尝试着寻找到「产品市场契合点」的初创公司完全不需要 Hadoop,因为公司本身就不存在多少的数据需要处理;而一个处在快速发展中的初创公司往往会遭遇更频密的数据冲击,也许 PostgreSQL 或者 Vertica 更适合这家公司的需要;而像 Twitter 这样的公司如果不借助 Hadoop 或者 Map-Reduce 框架,就完全无法有效地处理所有数据。Chang 在 Twitter 学到的最有价值的一点内容就是:数据分析师从数据中提取出价值的能力,往往跟公司本身数据平台的成熟度有着密不可分的关系。如果你想要明白自己从事的是哪种类型的数据分析工作,首先去做做调研,看看你意向中的这家公司的底层系统架构能够在多大程度上支持你的目标,这不仅仅对你好,也对公司好,借此看你个人的职业发展目标是否跟公司的需要契合起来。在初创公司早期,最主要的分析重点是为了实现 ETL 进程,模块化数据,并且设计基模架构,将数据记录应用到上面。这样数据就能够追踪并存储。此处的目标是打下分析工具的基础,而不是分析本身。在快速发展的初创公司的中期,因为公司在快速发展,那么数据也在不断的增长。数据平台需要适应不断发展的新形势,新条件,在已经打好基础的前提下,开始逐渐实现向分析领域的过渡。一般来说,此时的分析工作主要围绕着制定 KPI,推动增长,寻找下一次增长机会等工作展开。实现了规模增长的公司。当公司实现了规模化增长,数据也开始呈几何倍数的增长。此时公司需要利用数据来创造,或者保持某种竞争性优势,比如更好的搜索结果,更加相关的推荐内容,物流或者运营更加的高效合理。这个时候,诸如 ML 工程师,优化专家,实验设计师都可以参与进来一展拳脚了。在 Chang 加入 Twitter 的时候,Twitter 已经有了非常成熟的平台以及非常稳定的底层结构。整个数据库内容都是非常干净,可靠的。ETL 进程每天轻松处理着数百个「任务调度」工作。(Map-Reduce)。更重要的是,在数据分析领域的人才都在数据平台、产品分析、用户增长、实验研究等多个领域,多个重点工作齐头并进一起展开。他是在用户增长领域安排的第一名专职数据分析师。事实上,这花了他们好几个月来研究产品、工程、还有数据分析到底该如何融合,才能实现这样一个岗位角色。Chang 的工作与产品团队紧密连接,根据这方面的工作经验,他将自己的工作职责划分成为了下面几类内容:产品分析数据传输通道实验(A/B 测试)建模下面将会按照排列次序逐一解释产品分析对于一家消费级科技公司来说,产品分析意味着利用数据来更好地理解用户的声音和偏好。不管什么时候用户与产品进行着互动,Twitter 都会记录下来最有用的数据,存储好它们,以待未来某一天分析之用。这个过程被称之为「记录」(logging)或者「工具化」(instrumentation),而且它还不断地自我演进。通常情况下,数据分析往往很难实现某个具体的分析,因为数据要么是不太对,要么是缺失,要么是格式错误的。在这里,跟工程师保持非常好的关系非常有必要,因为数据分析能够帮助工程师确认 bug 的位置,或者系统中一些非预期的行为。反过来,工程师可以帮助数据分析弥补「数据鸿沟」,使得数据内容变得丰富,彼此相关,更加准确。下面举出来了 Chang 在 Twitter 展开的几项与产品有关的分析案例:推送通知分析:有多少用户能用得到「推送通知」?不同类型的推送通知具体的点击率都分别是多少?SMS 发送率:在不同的数字载体上,Twitter 的 SMS 发送率都是怎么计算的?是不是在发展中国家这个发送率相对比较低?我们该怎样提升这个数字?多账户:为什么在某些国家,一个人持有多个账户的比例会相对较高?背后是什么动机让一个人持有多个账户?分析会以多种形式展开。有些时候公司会要求你对一次简单的数据拉取进行最直白的解读,又或者你需要想出一些新的方式方法来机选一个全新,且重要的运营指标。(比如 SMS 发送率),最后你会更加深刻地理解用户的行为。(比如一个人拥有多个账户)在产品分析中不断研究,得到真知灼见,这是一个不断迭代演进的过程。它需要不断地提出问题,不断地理解商业情境,找出最正确的数据组来回答相应的问题。随着时间的累积,你将成为数据领域的专家,你会正确地估计出来执行一次分析大概得花多长时间。更重要的是,你将逐渐从一个被动响应的状态,逐渐过渡到主动采取行动的状态,这其中会牵连出来很多有趣的分析,这些内容都是产品负责人曾经压根没有考虑过的,因为他们不知道这些数据存在,又或者不同类型的数据以某种特殊的方式组合到一起竟然会得出如此惊人的结论。此处需要的技能:保存和工具化:确认数据鸿沟。与工程部门建立良好的协作关系;有能力引导和确认相关的数据组,知道正确使用它们的方式;理解不同形式的分析,能够在不同的分析执行之前就正确地估算出难易程度,所需时间长短;掌握你的查询语言。一般来说是利用 R 或者 Python 来实现数据再加工;数据管道即使 A 型数据分析师不太可能自己编写代码,直接应用到用户那里,但是出乎很多人意料的是,包括 Chang 在内的很多 A 型数据分析师确实在给代码库写东西,目的只有一个:为了数据管道处理。如果你从 Unix 那里听说过「对一系列命令的执行」,那么一个数据管道就意味着多个系列命令的执行,我们能够不断周而复始地自动捕捉,筛选,集合数据。在来到 Twitter 之前,Chang 的分析绝大部分都是点对点的。在 Chang 的本地机器上,代码执行上一次或者几次。这些代码很少得到审查,也不太可能实现版本控制。但是当一个数据通道出现的时候,一系列的功能就浮出水面:比如「依赖管理」、「调度」、「源头分配」、「监控」、「错误报告」以及「警告」。下面介绍了创建一个数据管道的标准流程:你忽然意识到,如果一个数据组能够周而复始地自我重新产出,那么这个世界估计会因此受益;在确认了需求之后,你开始设计「生产数据组」的「数据架构」;开始编写你的代码,不管是在 Pig,Scalding,或者 SQL 中。这取决于你的数据环境是什么;提交代码,进行代码审查(code review),准备后得到回馈,并做相应额外的修改。要么是因为你的设计逻辑不太对,要么是你的代码出于速度和效率的目的并没有优化到位;应该有一个「测试」和「试运转」的环境,确保所有的运行都在既定的轨道上。将你的代码融合到主库中建立「监控」、「错误报告」以及「警告」等功能,以防止未来出现预期之外的状况。很显然,数据通道比一个点对点的分析工具来说更加复杂,但是优势也非常明显,因为它是自动化运行着的,它所产出的数据能够进一步强化面板,这样更多的用户能够消费你的数据 / 结果。另外,更加重要但是往往被人忽略的一点结果是,对于如何打造最优化的工程设计,这是一个非常棒的学习过程。如果你在日后需要开发一个特别定制的数据通道,比如机器学习,之前所做的工作就成为了扎实的基础。在此处需要用到的技能:版本控制,目前最流行的就是 Git;知道如何去做「代码审核」,并且知道如何有效地给予反馈;知道如何去测试,如何去试运行,当出现错误的时候知道如何「debug」;「依赖管理,调度,资源分配,错误报告,警告」功能的设置。接下来的篇章中,我们将谈到除了 “产品分析” 之外,其余的三种工作内容,它们分别是:数据传输通道、实验(A/B 测试)、以及建模。数据管道通过上文的描述,也许在很多人的概念中 A 型数据分析师不太可能自己编写代码,直接应用到用户那里,但是出乎很多人意料的是,包括 Chang 在内的很多 A 型数据分析师确实在给代码库写东西,目的只有一个:为了数据管道处理。如果你从 Unix 那里听说过「对一系列命令的执行」,那么一个数据管道就意味着多个系列命令的执行,他们能够不断周而复始地自动捕捉,筛选,集合数据。在来到 Twitter 之前,Chang 的分析绝大部分内容都是点对点的。在 Chang 的本地机器上,代码执行上一次或者几次。这些代码很少得到审查,也不太可能实现版本控制。但是当一个数据通道出现的时候,一系列的功能就浮出水面:比如「依赖管理」、「调度」、「源头分配」、「监控」、「错误报告」以及「警告」。下面介绍了创建一个数据管道的标准流程:1.你忽然意识到,如果一个数据组能够周而复始地自我重新产出,那么这个世界估计会因此受益。2.在确认了需求之后,你开始设计「生产数据组」的「数据架构」。3.开始编写你的代码,不管是在 Pig,Scalding,或者 SQL 中。这取决于你的数据环境是什么。4.提交代码,进行代码审查(code review),准备后得到回馈,并做相应额外的修改。要么是因为你的设计逻辑不太对,要么是你的代码出于速度和效率的目的并没有优化到位。5,应该有一个「测试」和「试运转」的环境,确保所有的运行都在既定的轨道上。6.将你的代码融合到主库中。7.建立「监控」、「错误报告」以及「警告」等功能,以防止未来出现预期之外的状况。很显然,数据通道比一个点对点的分析工具来说更加复杂,但是优势也非常明显,因为它是自动化运行着的,它所产出的数据能够进一步强化面板,这样更多的用户能够消费你的数据 / 结果。另外,更加重要但是往往被人忽略的一点结果是,对于如何打造最优化的工程设计,这是一个非常棒的学习过程。如果你在日后需要开发一个特别定制的数据通道,比如机器学习,之前所做的工作就成为了扎实的基础。在此处需要用到的技能:版本控制,目前最流行的就是 Git。知道如何去做「代码审核」,并且知道如何有效地给予反馈。知道如何去测试,如何去试运行,当出现错误的时候知道如何"debug」。「依赖管理,调度,资源分配,错误报告,警告」功能的设置。实验(A/B 测试)此时此刻,非常有可能你现在使用的 Twitter App 跟我手机上装的 App 是有一点小小的不同的,并且很有可能你在用着一个我压根没有见到过的功能。鉴于 Twitter 的用户很多,它可以将其中很小的一部分流量(百分之几)导入到一次实验中,去测试这个尚未全面公开的功能,去了解这些被选中的用户如何跟这个全新的功能互动,他们的反响跟那些没有见到这个功能的用户进行对比。这就是 A/B 测试,去让我们方便测试各种变量,通过 A 和 B 到底哪个方案更好。Chang 个人的看法是:为一些较大的科技公司做事,能够享受到的一点优势,就是能够从事开发和掌握业界最神秘的技能:「A/B 测试」。作为一名称职的数据分析师,你必须利用可控制的实验,在其中进行随机测试,得到某种确定的因果关系。而根据 Twitter 负责工程部分 A/B 测试的副总 Alex Roetter 的话来说,「Twitter 的任何一天中,都不可能在没有做一次实验的前提下就草率放出某个功能。」A/B 测试就是 Twitter 的 DNA,以及产品开发模式的基础。A/B 测试的循环周期是这样的:取样-& 分组-&分别对待-& 评估结果-& 作出对比。这听上去是不是觉得挺简单的?其实事实完全相反。A/B 测试应该是天底下最难操作的分析之一,也是最容易被人低估难度的一项工作。这方面的知识基本上学校是不教的。为了更好的阐述观点,分了下面五点内容,分别是五个阶段,其中一些部分有可能是你从事 A/B 测试时会遇到的一些困难和挑战。取样— 我们需要多少的样本?每一组分多少个用户?我们是否能够让实验具有足够的可信度和说服力?分组— 哪些人适用于出现在这次实验中?我们从代码的哪一处开始起手,分出两个版本?是否会出现数据稀释的情况?(数据稀释的意思就是,有些用户被纳入到了新改动的版本测试中,但是实际上他们却压根不打开这个 App,见不到这个新变动的功能。)区别对待-整个公司中是否还有其他的团队在做其他的测试,瞄准的用户是否跟此时我们锁定的用户群发生重叠?我们该怎样应对「测试冲突」这种情况,保证我们的数据没有被「污染」?评估结果-测试的假设前提是什么?实验成功或者失败的指标是哪些?我们是否能做到有效的追踪?我们是否要增加一些其他方面的数据存储?做出比较-假设某个条件下的用户数量发生了激增,它是不是因为其他的一些因素?我们是如何确保这些统计具有实际的意义?就算具有实际的意义,这个意义对于下面的产品改良又具有多大的指导作用?不管回答上述的哪一个问题,都需要对统计学很好的掌握才能办到。就算你一个人能力很强,但是团队其他同事还是有可能给这个 A/B 实验添乱子。一个产品经理有可能特别心急,没等试验结束就要偷窥数据,又或者想当然地,按照他们想象的方式挑选自己想要的结论。(这是人性,别怪他们)。一个工程师有可能忘记存储某个特殊的信息,又或者错误的写出测试用的代码,实验结果出现了非常离谱的偏差。作为数据分析师,这个时候不得不对自己和他人严厉一些,让整个团队都能高效、准确地运转,在实验的每一个细节上面都不能有任何的差池。时间浪费在一次徒劳无功,设计错误的实验中,这些时间是找不回来的。甚至还会出现更糟糕的情况,依据一次错误的实验结论形成错误的决策,最终给整个产品带来极大的风险。在此处所需要用到的技能:假设条件测试: 统计学测试,统计数据可信度,多重测试。测试中有可能出现的偏差: 按照自己想要的结果去推断结论,延滞效应,数据稀释,分组异常预测型建模以及机器学习Chang 在 Twitter 负责开发的第一个重大项目是将一组「疲劳标准」添加到 Twitter 目前的邮件通知产品中,这样能够降低邮箱过滤机制将 Twitter 的信息视为垃圾信息的概率,从而实现让用户更频繁在收件箱中看到 Twitter 发来的电子邮件。尽管邮件过滤机制不失为使一次伟大的发明,但是邮件通知也确实是提升客户留存率的特别有效的办法之一。(这个结论是 Twitter 曾经做的一次实验中无疑中发现的)。所以,Chang 的目标就是在这其中取得平衡。在基于上述的观察和思考之后,Chang 想到了一个点子:触发式的邮件发送机制。也就是只有在用户与产品之间发生了某种互动的情况下,这封邮件才会发送到用户的电子邮箱。作为刚刚加入团队的数据分析师,Chang 特别想要通过这个项目来证明自己的价值,于是决定利用非常棒的机器语言模型来预测电子邮件的 CTR(点击率)。他将一大堆用户级别的功能集合在 Pig 工具中,并建立了一个随机预测模型来预测邮件点击。这背后的想法是,如果用户在过去很长一段时间内都对电子邮件有着低点击率,那么 Twitter 就会保留这封邮件,不再给他发送。上述的想法都很好,但是只有一个问题,所有的工作都是放在本地机器的 R 中处理的。人们都很赞赏 Chang 的工作成果,但是他们不知道如何利用这个模型,因为它是无法进一步转化成产品的。Twitter 的系统底层是无法与 Chang 的本地模型展开对话的。这一课带来的教训让 Chang 终生难忘。一年之后,Chang 和增长团队中的两个人共同捕捉到了一个全新的机会,能够打造一个用户流失率预测模型。这一次,Chang 已经在开发数据管道上有了非常充足的经验。这一次他们做的非常好,模型能够针对每一个用户自动的生成一个用户流失概率!几个星期之后,他们开发了数据管道,并且确认它真的具有很有效的预测能力,他们通过将分数写入到 Vertica,HDFS,以及 Twitter 内部一个称之为「曼哈顿」的关键价值商店。这样大家都知道了它的存在。公司无数分析师,数据分析师,工程服务部门都过来试用,进行查询,帮其宣传,评价非常好。这是 Chang 在 Twitter 最值得骄傲的一件事,真正把预测模型纳入到了产品当中。Chang 认为绝大部分杰出的数据分析师,尤其是 A 型的数据分析师都存在这样一个问题,他们知道怎样去建模,但是却不知道怎样把这些模型嵌入到产品系统当中。Chang 的建议是好好跟 B 型数据分析师聊聊吧,他们在这个话题上有着足够丰富的经验,发现 A 型和 B 型数据分析师职能重合的那一部分,想想接下来需要的一些技能组合是什么,这样才能让自己在数据分析师的道路上走的更深更远,更加宽广。「机器学习并不等同于 R 脚本。机器学习起源于数学,表达在代码中,最后组装在软件中。你需要是一名软件工程师,同时需要写一点可读的,重复使用的代码。你的代码将被更多人重新读取无数次-来自 Ian Wong 在哥伦比亚数据学课堂上的讲座节选。在这里所用到的技能:模式确认:确认哪些问题是可以通过建模的方法来加以解决的建模以及机器语言的所有基础知识:探索型数据分析,开发功能,属性选择,模型选择,模型评估,练习 / 确认 / 测试。产品化:所有上面的内容有关于数据管道的建立,使得不同的人都能够在上面执行查询最后的一些话:成为一个数据分析师确实是一件挺让人激动的事。你能从别人根本无法达到的角度获取真相,这足够酷炫了。从底层开始开发数据管道或者机器语言模型,会给人带来深层次的满足感,当执行 A/B 测试的时候,有太多时刻会给你一种当「上帝」的趣味。即便这条路充满了曲折以及不确定性,有很多挑战摆在眼前,但是走在这条路上的人永远不会退缩。任何一个聪明,有想法的年轻人都应该考虑成为一名数据分析师。
我来提供一个不那么网页罗列、技能罗列的短答案吧。首先,数据科学是什么?数据科学家又是什么?这本身就是个见仁见智的问题,几乎每个人都会给你一个不同的答案。所以你能做的只能是找出自己的理解,就像我只能提供给你我个人的理解。本人进入数据分析行当快两年了,从一开始执着“数据科学家”的名分(因为听着新鲜有趣,那还是 2013 年下半年呢,呵呵两年过去看世界都变成什么样了),到后来一直不断翻新个人的理解,也算经历了一个找寻的过程,并且还在找寻中把。在这个过程中,一开始我也是把注意力集中在“硬”技能上,就是那些常见的技能罗列的东西。这种清单,你可以随便去 LinkedIn 上搜索一个 Data Scientist 职位,然后在 desired skills 清单里一抓一大把,你会发现不同公司的要求变化相当大,所以不存在标准答案。然后你可以从数据分析的角度把自己最心仪公司招 Data Scientist 的要求的核心部分给总结一下,看看有哪些核心部分(就是交集啦)。那应该能提供给你一个比在这里提问更有效的答案。不过我个人感觉真正的重要的技能还是“软”技能,也就是把关于行业的了解完全渗透到做数据分析的过程当中去。这里面有一个要点,就是始终清楚自己做数据的目的到底是什么。好比我上面提到用数据的角度去找出“数据科学家的核心技能集合”,当你做这样的事情的时候,你完全清楚自己的目的是什么,使用不管什么方式方法,你在做的就是一个“目的性明确的数据分析”工作。现实中充满了各种各样的问题,有很多都可以转化成数据问题来解决。因此我在个人网页上写了下面这句话:In the world of data mining, there's always an answer to your question也许通过你自己的道路,你能获得更我相似或者不同的心得。这是个体成长上的收获,都是非常值得珍惜的。另外,收了几本个人感觉收获最高的数据科学相关书籍在这里,仅供参考:
Albert Xiao:
Quora回答:Quora回答:
Road Map to Data Scientist最好看大图。哈哈手机党对不住了,请谨慎点击。
我本科是学会计的,大四那年幸运得到内推机会,到一家欧洲的基金公司工作,帮老板研究对冲基金的策略。这里有个学数学的法国帅哥每天在用VBA和matlab做衍生品的定价,后来我不小心知道了他的收入,整个人都不好了。恰好那一年,IBM用统计学习技术做出的Watson在Jeopardy上打败了所有的人类对手,我感到了一种前所未有的恐惧感,在Watson面前,我这种靠记忆和小聪明吃饭的人还有什么价值?于是我辞职回家准备出国,要学统计学,申请失败后继续考研,经过许多惊险之后,到了交大读统计硕士。成为一名数据科学家是一个很大的挑战,我从大四开始用了三四年的时间慢慢转型到了数据科学的方向,深感这个过程对商科、社科(以及不是计算机和数学方向的理工科)的青年来说有多大的挑战。数据科学是人类信息技术和数理科学的大融合,其知识密度和知识深度超过了大多数传统职业,要想从门外从到门内,学会开始驾驭这个庞然大物,有着一座又一座的知识山峰要去攀登,很像是一场创业的经历,高风险、高回报、很辛苦、但也很快乐。这几年我一直在思考这个问题,到底大数据对我们意味着什么,我们又怎样适应大数据的时代,我觉得无论是要转型成为数据科学家,还是掌握数据分析技能,这是我们每一个人的事情。就像马云最近说的”数据是未来的石油“,谁都离不开它。我想根据自己的经历,从挑战和机遇这两个角度来谈谈,怎么从外行(社科、商科、传统工科)转型成为一名数据科学家,帮助更多像我一样的普通人能够少走些弯路。大数据时代的技能大挑战大数据时代,掌握数学和统计,就像在全球化时代掌握英语一样重要。数据已经成为了经济、管理、科研、政府等各个领域的共同工作语言,不懂数学和统计会面临很大的沟通成本。如何在碎片化的时代,克服数学焦虑,掌握数学和统计知识,是每个人都面临的挑战。数学焦虑是人们面对数学问题时产生的习惯性的焦虑或恐惧情绪,会极大地影响人们解决数学问题的能力,并降低学习数学的兴趣。心理学家发现,对于数学的恐惧是一个很普遍的现象。调查反映,美国有60%的大学生都存在着数学焦虑情绪,而仅有10%的学生是对数学感兴趣的。从牛顿发明微积分算起,现代数学体系是人类最近300年发展出的一套理论体系。数学符号化、抽象化的运作方式,和人类大脑先天视觉化、具体化的思维习惯有着很大的差异。数学学习需要学生保持长时间的注意力集中,也就是要坐得住冷板凳,而这一点正在变得越来越困难。美国高度发达的娱乐产业,已经使得多动症成为了高发的儿童心理疾病。美国中学生的数学水平测试,已经远远落后于亚洲和北欧的学生。虽然有着高质量的教育资源,但薄弱的数学基础使得美国大学生不愿意选择理工科专业,仅有20%的美国大学生毕业于理工科。理工科人才的缺口,已经限制到了美国经济的发展,迫使奥巴马在2011年发布了“STEM人才培养计划”,其中的“STEM”,是科学、技术、工程、数学四个英文的缩写。BCG在2014年发表的研究报告中发现,美国的高科技行业面临着严重的人才紧缺。科技产业发达的华盛顿州中,有三分之二的科技高端岗位都无法找到合适的员工。 中国学生的数学基础教育是全球领先的,但是数学焦虑也同样普遍。数学基础课的挂科率在各个院校都排名靠前,而大多数学生对数学课程也缺少兴趣。高校的数学系也是报考人数不足,每年都需要通过调剂招生。数据工作者的门槛不仅在于数学和统计学知识,也在于编程能力和行业经验。 大数据分析基于海量数据的储存、传输和处理,从原始数据到分析结果,需要运用一系列程序。数据分析常用的软件包括比如Hadoop、SQL、R、SPSS、Tableau、Excel,很多工作都需要编程的技能。数据分析的目标是发现问题、解决问题、提高效益,但每一个行业都有特定的问题。行业经验能够让数据分析人员找到问题的方向,抓住问题的重点,从而更有效地利用数据,也能够使分析的结果发挥更大的价值。编程能力和行业经验多许多大学生,也有着不小的门槛,这更是让优秀的大数据人才显得弥足珍贵。全球资源为我所用站在国际视角,大数据是所有中国学生的一个机会。大数据技术仍然在发展初期,中国和欧美发达国家站在了同一起跑线。根据联合国的学业能力测试,中国学生的数学基础教育是全球领先的,而且中国的理工科学生占到了总数的50%,远超出美国的20%。中国人口众多,移动互联网的普及也使得数据存量迅速增长。人才储备和数据储备,为中国发展大数据行业奠定了最重要的基础。大数据行业刚刚起步,不仅有着广阔的职业发展空间,而且人才缺口巨大,正在从各个行业吸纳人才。无论是什么专业背景、职业经历,只要坚定个人转型升级的信念,就能抓住大数据时代的机遇。教育是一个人最重要的投资,其价值在技术变革的时代更加凸显。旺盛的需求使得教育成本迅速增长,对于很多家庭,教育已经成为了房产之外最大的负担。而我们在此前的报告也指出,随着高校和企业的差距被技术变革迅速拉大,高校所提供的知识和技能已经难以适应生产力要求。大数据时代的转型升级,前提就是要跟上生产力升级的步伐,充分利用互联网的力量。 大数据生长在互联网的土壤之上,数据通过互联网采集,通过云计算得到处理,而大数据分析所要教育资源和软件工具,几乎全都都能通过互联网获得。教育作为文化产品,其价格和价值之间并没有必然关系。在传统课堂中投入过多的资金和时间,并不是最明智的选择。互联网教育的发展,让价值巨大的优秀教育也已成为免费的服务。在Edx、Coursera这些在线教育平台上,全球范围内最优秀的教育资源,已经免费开放给了全世界的用户,许多大数据领域的国际专家都在这些平台上开设了免费的学习课程。优质、免费的教育是互联网给所有青年的礼物,而大数据领域最前沿的技术,也向所有人免费开源。只要掌握了使用方法,每个人都可以运用Hadoop搭建数据储存和计算平台,用R语言进行数据建模和可视化分析。免费的大数据工具功能强大而且性能稳定,在Facebook和IBM这类顶尖企业也被广泛运用。 分析工具的免费,使得每个人都有了学习和运用大数据技术的机会。大数据工具的迅速普及,车多司机少,驾驭工具的人才就出现了严重的供不应求。吸收大数据分析的知识,应用大数据分析的工具,是实现数据化升级的必要条件。掌握大数据的知识和工具虽然有着很高的学习门槛,但是获取大数据的教育资源和分析工具的门槛却已经完全消失。在实践中赢取持久战大数据包含了很多领域的知识和技能,数学、统计、计算机是基础,行业经验、背景知识也必不可少。庞大的知识体量,使得大数据的学习成为了一场持久战。按部就班地学习教科书中的理论,对于大多数人来说并不现实。理论的讨论是可以无限延伸的,面对庞杂的技术理论和漫长的学习周期,很少有人能够坚持下来,这也是数据人才长期紧缺的原因之一。真正可行的方式,是小处着手,循序渐进,在实践中学习理论。实践问题有着具体的场景,理解的成本更低,学习的目标也更明确,从而更容易坚持下去。麻雀虽小,五脏俱全,许多大数据项目的技术相对简单,却蕴含着很大的价值。比如银行业广泛应用的信贷风险模型,采用了基础的回归模型,大幅降低了银行坏账和经济损失。学习大数据,不妨选定一个感兴趣的职业方向,在实践项目中磨练技能,理解理论。在阶段性的成果中,不断获得成长的动力,在良好的心态中赢取这场持久战。只要用数据思维看问题,实践大数据技术的机会其实很多。阿里巴巴的首席数据官,车品觉先生就给出一个精彩而朴实的例子。他看到属于个人的信息资料,已经远远超出了人们的记忆负荷,于是运用大数据的思想,在“印象笔记”中把自己所有的重要资料都进行了系统化地标记和检索,大幅度提高了工作的效率。 信息化的时代,利用数据创造价值的机会越来越多 ,而通过实践内化数据化的思维和技能,我们才能真正抓住这样的机会。我们能用从学会用大数据管理个人数据开始,到Kaggle这样的平台中参与大数据分析比赛开始,在项目团队中学习知识,实践技能。大数据时代的合作精神要想做好大数据分析,除了知识和经验,还要有充分的合作精神。大数据是信息技术和数理理论的大融合,没有人能解决全部的问题。在企业和学术界,一个典型的大数据分析项目,需要各方面的专业人士的通力合作,包括擅长统计理论的数据科学家,搭建计算平台的数据工程师,经验丰富的行业专家和数据分析师,以及负责数据可视化的设计师。计算机、管理、设计、数学、统计等各个专业的同学,都能够在大数据项目中,找到属于自己的独特位置。 在大数据分析项目,每一个同学的专业技能不仅仅停留在脑海中,而是在各个专业的同伴帮助下,转化成有实际价值的作品。我们的高校仍然沿袭着工业化的组织结构,不同知识背景的同学被专业和学院割裂开来,身边的朋友和自己的背景都十分类似。要想开始大数据的实践,就必须找到目标一致、又技能互补的合作伙伴。可是怎样找到一群可以共事的合作者?首先可以加入学校的数学建模社团、数据分析协会,这里往往聚集了全校数学基础最扎实的同学。我们也可以寻找有特定技能和背景的同学,组成优势互补的项目团队,一起参加大数据分析的比赛。真正的机会往往是以挑战的形式出现,大数据带来的职业挑战背后,正是绝佳的发展机会。大数据技术要求的数学基础和编程技能,确实有着很高的学习门槛,然而优质的教育资源、开源的数据分析工具、合作实践平台,也让我们拥有了驾驭大数据,实现大价值的机会。 是留在门槛之下,做一个随时可能被技术替代的旧青年,还是在实践积累中跨越门槛,成为掌控技术能量的新青年,选择在我们自己手中。
lz说的是一些基本技能,但如今的数据科学家往往是领域专家在加上一定的数据统计能力,注意数据统计能力不是起决定作用的,领域专家能力才是起决定作用的。一些成功的数据挖掘案例一般都是建立在对数据和业务理解足够深刻,然后加上一些创造性的想法得出,各种高深的算法往往不是关键。那么问题来了,创造性的想法怎么来,很多人对着数据一筹莫展,试便了牛b的算法也发现不了价值。其实根源还是在于对领域数据理解的不深刻,缺乏足够的洞察力。当然这里不是说算法,大数据处理的方法不重要,但这些只是工具,工具必须掌握,但不能过分强调,工具只有和领域知识结合才能发挥巨大作用
Henry0307:
我推荐“清华大数据(微信号:FudanBigData)”的一篇文章:图说:成为一个性感的数据科学家,总共分几步?“数据科学家” 是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。那么想要成为一个性感的数据科学家,总共分几步?“清华大数据(微信号:Tsinghua_Big_Data)” 二维码:
推荐“复旦大数据(微信号:FudanBigData)”的一篇文章:标题:[译]从零开始成为数据科学家的9个步骤由于数据科学和数据分析是迅速发展的领域,从而相应工作的合格人才十分缺乏。这使得对于任何对其有兴趣或正在寻找新工作的人来说,数据科学都是一个很有前途且有利可图的从业领域。但是,你怎样才能成为一个数据科学家呢?首先,对于数据科学科学家的定义不同公司有多种不同的看法。对于这一概念没有单一的定义。但总的来说,数据科学家是具有统计学知识背景的软件工程师和在其想要从事的领域具有特定而完备知识的人的复合体。大约百分之九十的数据科学家至少有大学本科教育背景——更高的具有博士学位,但他们获得学位的领域十分广泛。一些招聘人员甚至发现,在人文学科领域有一定创造力的人也可以接受理工科技能。因此,除了获得一个数据科学学位(这类学位在世界各地的著名大学如雨后春笋般出现)你需要采取什么措施成为一个数据科学家?1、 温习你的数学和统计学技能 。一个合格的数据科学家必须能够理解数据在告诉你什么,并通过从数据中获得的信息进行下一步的工作。你必须有扎实的基本线性代数,对算法和统计技能的理解。在某些地方上可能需要更高级的数学,但这是一个起步的好地方:)。2、 理解机器学习的概念 。机器学习是与大数据有千丝万缕联系的新兴流行词。机器学习使用人工智能算法将数据转化为价值,且无需显式编程来进行自动学习。3、 学习编程 。数据科学家必须知道如何操作代码以便告诉计算机如何分析数据。从一个开放源码的语言,如Python,开始起步是个不错的选择。4、 了解数据库,数据仓库和分布式存储 。数据存储在数据库、数据仓库或整个分布式网络中,这些数据存储库建立方式决定了你如何访问,使用,并分析数据。如果你在构建数据存储之前不进行整体的考虑将会对你之后的工作带来深远的影响。5、 学习数据规整和数据清洗技术 。数据规整是将原始数据转换成另一种格式以便更容易获取和分析的过程。数据清理有助于消除重复和“噪声”数据。两者都是数据科学家工具箱中的必备工具与技能。6、 了解良好的数据可视化和数据展现的基础知识 。你不必成为一个平面设计师,但你需要精通如何创建一个门外汉,如你的经理或CEO,可以理解的数据报告。7、 给你的工具箱添加更多的工具 。一旦你掌握了上面所说的那些技能,就是时候扩展你的数据科学工具箱了,如Hadoop、R、Spark编程。这些工具的知识和使用经验将会使你超过大部分想从事数据科学这方面工作的人。8、 实践 。在你有一份该领域的工作之前,你如何实践练习数据科学?你可以使用开源数据进行你自己的个人项目,参加数据科学竞赛,通过网络和数据科学家协同工作,加
入一个训练营,作志愿者或实习生。最好的数据科学家在该领域应有当有足够的经验和直觉,并能够将他们的工作展示给招聘人员。9、 成为社区的一部分 。关注行业的思想领袖,阅读行业博客和网站,参与其中,发出提问,并及时了解当前该领域的新闻和理论。听起来是不是很多?好吧,确实挺多。数据科学不是适合每个人的,对于对其感兴趣并醉心于此的人来说,它可以是令人难以置信的奖励与回报。如果你没有足够的资金上大学,查看一下这下面个 图表 ,详细说明了如何使用网络上的免费资源完成上面的这些步骤。作者:Bernard Marr译者:Tacey Wong“复旦大数据(微信号:FudanBigData)”的二维码:
[偷笑]全文都说学哪些工具,却没提及到熟悉业务、理解业务需求,多学点市场营销的东西,把算法和业务结合,这些都没提及到,就想做科学家?
未来式的计算机世界,一定是云计算和大数据的世界,成为数据科学家,我认为既要懂数理统计方面的知识,同时还要深入了解业务,是该行业和领域的业务专家,能通过数据模型的建立,对未来发展的趋势进行预测
明仔识揸车:
我今年大一,现在在新加坡国立读一个叫“商业分析”的专业,这个专业专门为公司培养数据分析员。今年第一年招生,课程是计算机学院的一帮计算机科学和信息系统(Information System)的教授专门设计的,其中包括编程和IS(计算机学院)、统计(科学院)、商学院,三个faculty的课程。我学了一年下来最大的感受是,编程编不过学CS的,统计理解的没学统计的好,商学院的课做presentation被虐;但是他们对于别的领域不知道的知识我能略知一二。以我现在的理解,其实所谓“数据科学家”,应该更加强调商业上的应用。与其把这个作为一种新的学科、新的知识,不如把它想成一种新的“职业”;这个”商业分析“专业也许没有对科学的发展、新知识的发现起到多少作用,但是能帮助学生在学习过程中对知识进行整合,从而培养出一种现在公司能用的“员工”。就像我们同学一直自嘲,我们不过是一帮”高级技工“罢了,只不过这种技工,现在市场需求不小,待遇也不差。
上看到的一张图特转来
推荐一篇我翻译的文章:数据科学家与数据分析师译注:1.最近大数据很火,与数据相关的职位在中国越来越为人们熟知,本文介绍了数据科学家与数据分析师的异同。原文链接:2.文中[]表示为使句子更加通顺而添加的一些词语。正文:由于最近这个话题在很多地方被激烈的讨论,虽然这篇文章不在计划内,但我仍然考虑撰写一篇“数据科学家与数据分析工程师”的文章。数据科学(Data Science):我个人对数据科学的理解是这样的:理解数据和业务逻辑,并通过对当前业务数据进行采样(分析)来提供预测(也被称作“数据洞察”、“业务洞察”、“数据发现”、“业务发现”),这些预测是关于业务的走向(好的和坏的)和趋势的;能够使业务能够在走下一步时作出正确的决策。比如:● 基于用户兴趣级别改进产品/功能● 吸引更多的用户● 吸引更多的点击、带来更好的印象、更加方便、带来更多的收益、吸引更多的潮人(leads?)● [改善]用户体验● [更好的]推荐● [增加]用户停留时间一般来说,“数据科学”是由“数据科学家”来驱动的,这些人一般是在数学、物理、统计、机器学习或者计算机科学的博士。如果不是这些领域的博士,那么他很难被雇佣。在最近的ACM的会议里,一位在线拍卖(online bidding)公司的数据科学人力资源经理在提问环节说她不会雇佣没有博士学位(和经验)的人。数据科学家的职位要求:● 基本都以“熟悉如何使用数据库系统(SQL 接口,ad-hoc)、MySQL和Hive”开始[作为最低要求]● 如果需要的话,还包括Java/python/简单map-reduce工作开发● 掌握(Exposure)各种分析方法(超过、中值、排序等),并且知道在各种数据集中应如何使用它们● 数学、统计学、关联、数据万巨额和预测分析(掌握基于概率和关联的预测)● “R”或者/和”RStudio”(如excel、SAS、IBM SPSS、 MATLAB)● 对(统计)数据模型的开发有深入的见解,一般来说当前的主流是自学习模型,这些模型能够从自己的输出中进行学习。● 从事过大数据的相关工作● 熟悉机器学习和/或者数据挖掘算法(Mahout、Bayesian、Clustering、etc)在数据科学领域,也有一些其它的职位要求和技能要求,如果能掌握,可能会在候选者中更有竞争力[意译]。比如,如果你有一个自然语言处理的角色,那么你可能需要一些不同的技能来匹配这个角色。有时候,这依赖于小组的大小,一个人有时候需要扮演多个不同角色,或者由不同的小组来处理。目前,市场上对数据科学家有很多需求,可能是仅次于数据分析师的第二大的热门职位。下面是数据科学家的需求趋势:数据分析师一般来讲,数据分析是数据仓库、商务智能的逻辑上的延伸,它以最有用的形式来提供完整的分析。使用数据仓库进行分析的最大的不同是,大多数情况下[数据仓库]分析能够做到实时,并且动态变化,因为数据仓库是通过ETL的方式离线处理过的。任何和数据打交道的业务肯定有“数据分析师”,没有数据分析师,就像没有心脏、灵魂和思想的死人一样。数据分析(工程)师的职位要求:● 熟悉数据仓库和商务智能的概念● 熟练掌握SQL和相关分析解决方案● 熟练掌握基于Hadoop平台的分析解决方案(HBase,Hive,Map-reduce jobs, Impala, Cascading等)● 熟练掌握各种企业级的数据分析工具(Vertica, Greeplum, Aster Data, Teradata, Netezza等),特别是如何使用它们通过最高效的方式来存储/访问数据的● 熟悉各种ETL工具(特别是将各种不同源的数据转换到分析工具中),来时实时分析变得可能。● 高效的存储和访问数据的模式设计● 熟悉各种数据体系结构中的工具和组件● 制定决策的能力(实时和ETL的比较,为实现Z是使用X还是使用Y)有时候,一名数据分析工程师也在需要的时候扮演数据挖掘的角色[任务],因为他对数据有比别人更好的理解。一半来说,他们为了得到更好的结果会很进行很严密的[分析]工作。数据分析可以分成四种类型或四类角色(因为很难雇佣一个拥有全部技术的人,另一方面也是因为管理和开发是很不同的)。● 数据架构师● 数据库管理员● 分析工程师● 操作员当前,“数据分析”可能是热门工作之一(可能Hadoop/大数据工程师超过了它),下面是在indeed上关于“数据分析”的趋势,它可能还会继续热门下去,因为绝大多数的业务需要及时的数据分析。即使“数据科学”和“数据分析”在技术领域角度看起来比较相似,但是数据科学更像一个业务单元里的数据消费者,它依赖数据分析组提供的数据。除此以外,由于更大的数据集上有更好的概率,大多数的模型预测或者算法在大数据集上的运行效果相当好,因此数据越多越好。(有了更多的数据),你就有更好的可能来进行正确的预测,并驱动业务[开展]。这些意味着两者相互依存。如果你有一个同时掌握这些技能的工程师,那么你赚到了。学术一点的:如何变成数据科学家或者数据分析工程师● 美国大多数的高等学府提供“数据科学”和“数据分析”的课程,其中包括Berkeley、Stanford、Columbia、Harvard等。● 这里有一些大学开设的相关课程的链接(可能不全也不准确,最好是直接去他们网站上找):○ ○ ● 这里还有一个在线的资源:○ 最后,欢迎关注我的微信公众号,关注大数据、可视化、挖掘:
非原创,转自一亩三分地目前最好的硕士水平数据科学自学课程想学DATA SCIENCE?目前最好的硕士水平数据科学自学课程,WARALD严重推荐这个COURSE LIST!成为一名数学科学家的(Data Scientist)是现在就业一大热点, Warald前段时间写过一个系列文章,从各个角度对这个新兴的方向进行了介绍,感兴趣的同学可以从《》开始读起。现在网上关于数据科学的文章、公开课程很多,这里,Warald推荐我觉得目前为止最好的一个课程总结,来自大家也可以来一亩三分地里参考这个帖子:《》。这个名单里的很多课程在里早就有人跟着修课+讨论了。推荐阅读相关帖子:文章类别: ---------------------------------------------------------------------------------------------------------------刚刚发完才发现前面的
答案已经有了w大的大部分帖子,不过这个研究生课程没贴~~,就不删了---------------------------------------------------------------------------------------------------------------Quora上也有相关的问答。
Coursera和Udacity都有一门data science的课程path
简单的说,在国内,学会扯淡;在国外,学过统计,并学会扯淡。顺便顶一下肥濛的回答。同学同事中有几位自我定义为数据科学家的朋友,为了不友尽,匿之。
数据科学家必学课程:补充一点:大数据时代,数据科学家必须了解大数据技术,另外 还有一些相关领域:物联网,云计算, 我个人认为其关系可以总结如下:物联网=sensor+大数据+云计算
免责声明:本站部分内容、图片、文字、视频等来自于互联网,仅供大家学习与交流。相关内容如涉嫌侵犯您的知识产权或其他合法权益,请向本站发送有效通知,我们会及时处理。反馈邮箱&&&&。
学生服务号
在线咨询,奖学金返现,名师点评,等你来互动

我要回帖

更多关于 挂科重读如何签证 的文章

 

随机推荐