如何成为怎么做一名成功的up主nlp/ml phd

&&&Kogan Page L 2nd Revised edition健康与心理 Health, Mind & Body &【预订】Effective&Nlp&Skills
邀请好友参加吧
版 次:页 数:字 数:印刷时间:开 本:16开纸 张:轻型纸包 装:是否套装:否国际标准书号ISBN:Y3所属分类:&&
下载免费当当读书APP
品味海量优质电子书,尊享优雅的阅读体验,只差手机下载一个当当读书APP
本商品暂无详情。
当当价:为商品的销售价,具体的成交价可能因会员使用优惠券、积分等发生变化,最终以订单结算页价格为准。
划线价:划线价格可能是图书封底定价、商品吊牌价、品牌专柜价或由品牌供应商提供的正品零售价(如厂商指导价、建议零售价等)或该商品曾经展示过的销售价等,由于地区、时间的差异化和市场行情波动,商品吊牌价、品牌专柜价等可能会与您购物时展示的不一致,该价格仅供您参考。
折扣:折扣指在划线价(图书定价、商品吊牌价、品牌专柜价、厂商指导价等)某一价格基础上计算出的优惠比例或优惠金额。如有疑问,您可在购买前联系客服咨询。
异常问题:如您发现活动商品销售价或促销信息有异常,请立即联系我们补正,以便您能顺利购物。
当当购物客户端手机端1元秒
当当读书客户端万本电子书免费读资源 | 盘点国外NLP领域40大高校及相关知名学者 - CSDN博客
资源 | 盘点国外NLP领域40大高校及相关知名学者
向AI转型的程序员都关注了这个号???
本文译自Quora话题:Which are the best schools for studying natural language processing(点击文末“阅读原文”即可查看英文原文)。该话题主要列举了NLP领域有哪些著名大学以及知名学者(按大学名称首字母进行排序),为有志于出国学习自然语言处理的学生们提供了一份指南。
注:原文中有诸多链接,译文并未添加,想了解详细信息,请点击阅读原文查看。
&译者 | 耿昕伟(哈工大SCIR在读博士生)
本文授权转自哈工大SCIR微信公众号(HIT_SCIR)
加州大学伯克利分校
知名的NLP学者:Dan Klein, Marti Hearst, David Bamman
NLP研究:可能是做NLP和机器学习交叉研究的最好研究机构之一。Dan培养了许多优秀学生,如Aria Haghighi, John DeNero和Percy Liang。
加州大学圣迭戈分校
知名的NLP学者:Lawrence Saul(Roger Levy今年加入MIT)
NLP研究:主要研究方向是机器学习,NLP相关的工作不是很多,但是在计算心理语言学有些比较有趣的工作。
加州大学圣巴巴拉分校
知名NLP学者:William Wang, Fermin Moscoso del Prado Martin
NLP研究:William研究方向为信息抽取和机器学习,Fermin研究方向为心理语言学和计量语言学。
加州大学圣克鲁兹分校
知名NLP学者:Pranav Anand, Marilyn Walker和LiseGetoor
NLP研究:Marilyn Walker主要研究方向为对话系统。
卡内基梅隆大学
知名NLP学者:Jaime Carbonell,Alon Lavie, Carolyn Rosé, Lori Levin, Roni Rosenfeld, Chris Dyer, Alan Black, Tom Mitchell以及Ed Hovy
NLP研究: 在多个NLP领域做了大量工作,包括机器翻译、文摘、交互式对话系统、语音、信息检索以及工作最为突出的机器学习领域。Chris主要方向为机器学习和机器翻译交叉研究,做了一些非常出色的工作。虽然Tom Mitchell属于机器学习系而不是语言技术研究所,但是由于他在CMU的“永不停息的语言学习者”项目中的重要贡献,我们必须在这里提到他。
芝加哥大学(以及芝加哥丰田科技学院TTIC)
知名NLP学者:John Lafferty, John Goldsmith, Karen Livescu, MichelGalley (兼职) 和Kevin Gimpel.
NLP研究:芝加哥大学以及丰田科技学院有许多机器学习、语音以及NLP方向的研究人员。John Lafferty是一个传奇性人物,其参与原始IBM MT模型研发,同时也是CRF模型的发明人之一。Goldsmith的团队是无监督的形态归纳法(unsupervised morphology induction)的先驱。Karen主要研究方向为语音,特别是对发音方式的建模。Michel主要研究结构化预测问题,特别是统计机器翻译。Kevin在许多结构化预测问题上都做出出色工作。
科罗拉多大学博尔德分校
知名NLP学者:Jordan Boyd-Graber, Martha Palmer, James Martin,Mans Hulden以及Michael Paul
NLP研究:Martha Palmer主要研究资源标注和创建,其中代表性有FrameNet, VerbNet, OntoNotes等,此外其也在词汇语义学(Lexical semantics)做了一些工作。Jim Martin主要研究语言的向量空间模型,此外与Dan Jurafsky(以前在科罗拉多大学博尔德分校,之后去了斯坦福)合作编写语音和语言处理的著作。Hulden, Boyd-Graber和Paul最近加入科罗拉多大学博尔德分校。Hulden主要使用有穷状态机相关技术,做一些音位学(phonology)和形态学(morphology)相关工作,Boyd-Graber主要研究主题模型和机器学习在问答、机器翻译上的应用。Michael
Paul主要研究机器学习在社交媒体监控(social media monitoring)上的应用。
哥伦比亚大学
知名的NLP学者:有多位NLP领域顶级学者,Kathy McKeown, Julia Hirschberg, Michael Collins, Owen Rambow, Dave Blei, Daniel Hsu和Becky Passonneau
NLP研究:在文摘、信息抽取以及机器翻译上面做了大量的研究。Julia团队主要在语音领域做一些研究。Michael Collins是从MIT离职后加入哥伦比亚NLP团队的,其主要研究内容为机器翻译和parsing。DaveBlei 和Daniel Hsu是机器学习领域翘楚,偶尔也会做一些语言相关的工作。
康纳尔大学
NLP知名学者:Lillian Lee, Thorsten Joachims, Claire Cardie, Yoav Artzi, John Hale,David Mimno, Cristian Danescu-Niculescu-Mizil以及Mats Rooth
NLP研究:在机器学习驱动NLP方面有许多有趣的研究。Lillian与其学生做了许多独辟蹊径的研究,如电影评论分类,情感分析等。Thorsten,支持向量机的先驱之一,SVMlight的作者。John研究内容包括计算心理语言学和认知科学。Mats研究领域包括语义学和音位学。Claire Cardie在欺诈性评论方面的研究室非常有影响的。Yoav Artzi在语义分析和情景化语言理解方面有许多重要的工作。David
Mimno在机器学习和数位人文学(digital humanities)交叉研究的顶级学者。
佐治亚理工学院
知名NLP学者:Jacob Eisenstein和Eric Gilbert
NLP研究:Jacob在机器学习和NLP交叉领域做了一些突出性的工作,特别是无监督学习以及社交媒体领域。在MIT,他是Regina Barzilay的学生,在CMU和UIUC分别与Noah Smith、Dan Roth做博士后研究。此外,Eric Gilbert在计算社会学(computationalsocial science)上做了许多研究。这些研究经常与NLP进行交叉。
伊利诺伊大学厄巴纳-香槟分校
知名的NLP学者:Dan Roth, Julia Hockenmaier, ChengXiang Zhai, Roxana Girju和Mark Hasegawa-Johnson
NLP研究:机器学习在NLP应用,NLP在生物学上应用(BioNLP),多语言信息检索,计算社会学,语音识别
约翰·霍普金斯大学(JHU)
知名NLP学者:Jason Eisner, Sanjeev Khudanpur, David Yarowsky,Mark Dredze, Philipp Koehn以及Ben van Durme,详细情况参考链接(http://web.jhu.edu/HLTCOE/People.html)
NLP研究:约翰·霍普金斯有两个做NLP的研究中心,即 the Center for Language and Speech Processing (CLSP) 和the Human Language Technology Center of Excellence(HLTCOE)。他们的研究几乎涵盖所有NLP领域,其中机器学习、机器翻译、parsing和语音领域尤为突出。Fred Jelinek,语音识别领域的先驱,其于2010年9月去世,但是语音识别研究一直存在至今。在过去十年内,JHU的NLP
summer research workshop产生出许多开创性的研究和工具。
马里兰大学学院市分校
知名的NLP学者:Philip Resnik, Hal Daumé, Marine Carpuat, Naomi Feldman
NLP研究:和JHU一样,其NLP研究比较全面。比较大的领域包括机器翻译,机器学习,信息检索以及计算社会学。此外,还有一些团队在计算心理语言学上做一些研究工作。
马萨诸塞大学阿默斯特分校
知名的NLP学者:Andrew McCallum, James Allan (不是罗彻斯特大学的James Allan), Brendan O'Connor和W. Bruce Croft
NLP研究:机器学习和信息检索方向顶尖研究机构之一。Andrew的团队在机器学习在NLP应用方面做出许多重要性的工作,例如CRF和无监督的主题模型。其与Mark Dredze写了一篇指导性文章关于“如何成为一名成功NLP/ML Phd”。 Bruce编写了搜索引擎相关著作“搜索引擎:实践中的信息检索”。James Allan是现代实用信息检索的奠基人之一。IESL实验室在信息抽取领域做了大量的研究工作。另外,其开发的MalletToolkit,是NLP领域非常有用工具包之一。
麻省理工学院
知名的NLP学者:Regina Barzilay, Roger Levy (2016年加入)以及Jim Glass
NLP研究:Regina与ISI的Kevin Knight合作在文摘、语义、篇章关系以及古代文献解读做出过极其出色的工作。此外,开展许多机器学习相关的工作。另外,有一个比较大团队在语音领域做一些研究工作,Jim Glass是其中一员。
知名NLP学者:Sam Bowman, Kyunghyun Cho, Ralph Grishman
NLP研究:Kyunghyun and Sam刚刚加入NLP团队,主要研究包括机器学习/深度学习在NLP以及计算语言学应用。与CILVR machine learning group、Facebook AI Research以及Google NYC有紧密联系。
北卡罗来纳大学教堂山分校
知名的NLP学者:Mohit Bansal, Tamara Berg, Alex Berg, Jaime Arguello
NLP研究:Mohit于2016年加入该团队,主要研究内容包括parsing、共指消解、分类法(taxonomies)以及世界知识。其最近的工作包括多模态语义、类人语言理解(human-like language understanding)以及生成/对话。Tamara 和Alex Berg在语言和视觉领域发了许多有影响力的论文,现在研究工作主要围绕visual referring expressions和 visual
madlibs。Jaime主要研究对话模型、web搜索以及信息检索。UNC语言学系还有CL方面一些研究学者,例如Katya Pertsova(计算形态学(computational morphology))以及Misha Becker(computational language acquisition)
北德克萨斯大学
知名的NLP学者:Rodney Nielsen
NLP研究:Rodney主要研究NLP在教育中的应用,包括自动评分、智能教学系统
知名NLP学者:David A. Smith, Lu Wang, Byron Wallace
NLP研究:David在数位人文学(digital humanities)特别是语法方面做了许多重要的工作。另外,其受google资助做一些语法分析工作,调研结构化语言(structural language)的变化。Lu Wang主要在文摘、生成以及论元挖掘(argumentation mining)、对话、计算社会学的应用以及其他交叉领域。Byron Wallace的工作包括文本挖掘、机器学习,以及它们在健康信息学上的应用。
纽约市立学院(CUNY)
知名NLP学者:Martin Chodorow和WilliamSakas
NLP研究:Martin Chodorow,ETS顾问,设计Leacock-Chodorow WordNet相似度指标计算公式,在语料库语言学、心理语言学有一些有意义的工作。此外NLP@CUNY每个月组织一次讨论,有很多高水平的讲者。
俄亥俄州立大学(OSU)
知名的NLP学者:Eric Fosler-Lussier, Michael White, William Schuler,Micha Elsner, Marie-Catherine de Marneffe, Simon Dennis, 以及Alan Ritter, Wei Xu
NLP研究:Eric的团队研究覆盖从语音到语言模型到对话系统的各个领域。Michael主要研究内容包括自然语言生成和语音合成。William团队研究内容主要有parsing、翻译以及认知科学。Micha在Edinburgh做完博士后工作,刚刚加入OSU,主要研究内容包括parsing、篇章关系、narrative generation以及language acquisition。Simon主要做一些语言认知方面的工作。Alan主要研究NLP在社交媒体中应用和弱监督学习。Wei主要做一些社交媒体、机器学习以及自然语言生成的交叉研究。
宾夕法尼亚大学
知名的NLP学者:Arvind Joshi, Ani Nenkova, Mitch Marcus, Mark Liberman和Chris Callison-Burch
NLP研究:这里是LTAG(Lexicalized Tree Adjoining Grammar)、Penn Treebank的起源地,他们做了大量parsing的工作。Ani从事多文档摘要的工作。同时,他们也有很多机器学习方面的工作。Joshi教授获得ACL终身成就奖。
匹兹堡大学
知名的NLP学者:Rebecca Hwa, Diane Litman和Janyce Wiebe
NLP研究:Diane Litman从事对话系统和评价学生表现方面的研究工作。Janyce Wiebe在情感/主观分析任务上有一定的影响力。
罗切斯特大学
知名的NLP学者:Len Schubert, James Allen和Dan Gildea
NLP研究:James Allen是篇章关系和对话任务上最重要的学者之一,他的许多学生在这些领域都很成功,如在AT&T实验室工作的Amanda Stent,在南加州大学资讯科学研究院USC/ISI的David Traum。Len Schubert是计算语义学领域的重要学者,他的许多学生是自然语言处理领域内的重要人物,如在Hopkins(约翰o霍普金斯大学)的Ben Van Durme。Dan在机器学习、机器翻译和parsing的交叉研究上有一些有趣的工作。
罗格斯大学
知名的NLP学者:Nina Wacholder和Matthew Stone
NLP研究:Smaranda和Nina隶属通讯与信息学院(School of Communication and Information)的SALTS(Laboratory for the Study of Applied Language Technology and Society)实验室。他们不属于计算机专业。Smaranda主要做自然语言处理方面的工作,包括机器翻译、信息抽取和语义学。Nina虽然之前从事计算语义学研究,但是目前更专注于认知方向的研究。Matt
Stone是计算机专业的,从事形式语义(formal semantics)和多模态交流(multimodal communication)的研究。
南加州大学
知名的NLP学者:信息科学学院有许多优秀的自然语言处理专家,如Kevin Knight, Daniel Marcu, Jerry Hobbs和 Zornitsa Kozareva
NLP研究:他们从事几乎所有可能的自然语言处理研究方向。其中主要的领域包括机器翻译、文本解密(decipherment)和信息抽取。Jerry主要从事篇章关系和对话任务的研究工作。Zornitsa从事关系挖掘和信息抽取的研究工作。
斯坦福大学
知名的NLP学者:Daniel Jurafsky, Christopher Manning, Percy Liang和Chris Potts
NLP研究:Jurafsky和科罗拉多大学波尔得分校的James Martin合著自然语言处理方面的教材。这个NLP研究组从事几乎所有能够想象到的研究方向。今天NLP领域最被广泛使用的句法分析器和词性标注工具可能都是他们负责开发的。
德克萨斯大学奥斯汀分校
知名的NLP学者:Ray Mooney, Katrin Erk, Jason Baldridge和Matt Lease
NLP研究:Ray是自然语言处理与人工智能领域公认的资深教授。他广泛的研究方向包括但不限于机器学习、认知科学、信息抽取和逻辑。他仍然活跃于研究领域并且指导很多学生在非常好的期刊或者会议上发表文章。Katrin 专注于计算语言学的研究并且也是该领域著名研究者之一。Jason从事非常酷的研究,和半监督学习、parsing和篇章关系的交叉领域相关。Matt研究信息检索的多个方面,最近主要发表了许多在信息检索任务上使用众包技术的论文。
华盛顿大学
知名的NLP学者:Mari Ostendorf, Jeff Bilmes, Katrin Kirchoff, Luke Zettlemoyer, Gina Ann Levow, Emily Bender, Noah Smith, Yejin Choi和 Fei Xia
NLP研究:他们的研究主要偏向于语音和parsing,但是他们也有通用机器学习的相关工作。他们最近开始研究机器翻译。Fei从事机器翻译、parsing、语言学和bio-NLP这些广泛的研究工作。Emily从事语言学和自然语言处理的交叉研究工作,并且负责著名的计算语言学相关的专业硕士项目。Gina从事对话、语音和信息检索方向的工作。学院正在扩大规模,引入了曾在卡内基梅隆大学担任教职的Noah和曾在纽约州立大学石溪分校担任教职的Yejin。
威斯康辛大学麦迪逊分校
知名的NLP学者:Jerry Zhu
NLP研究:Jerry更加偏向机器学习方面的研究,他主要从事半监督学习的研究工作。但是,最近也在社交媒体分析方向发表论文。
非美国大学
知名的NLP学者:Stephen Clark, Simone Teufel, Bill Byrne和Anna Korhonen
NLP研究:有很多基于parsing和信息检索的工作。最近,也在其他领域发表了一些论文。Bill是语音和机器翻译领域非常知名的学者。
爱丁堡大学
知名的NLP学者:Mirella Lapata, Mark Steedman, Miles Osborne, Steve Renals, Bonnie Webber, Ewan Klein, Charles Sutton, Adam Lopez和Shay Cohen
NLP研究:他们在几乎所有的领域都有研究,但我最熟悉的工作是他们在统计机器翻译和基于机器学习方法的篇章连贯性方面的研究。
新加坡国立大学
知名的NLP学者:Hwee Tou Ng
NLP研究:Hwee Tou的组主要从事机器翻译(自动评价翻译质量是焦点之一)和语法纠错(grammatical error correction)方面的研究。他们也发表了一些词义消歧和自然语言生成方面的工作。Preslav Nakov曾是这里的博士后,但现在去了卡塔尔。
知名的NLP学者:Stephen Pulman和Phil Blunsom
NLP研究:Stephen在第二语言学习(second language learning)和语用学方面做了许多工作。Phil很可能是机器学习和机器翻译交叉研究领域的领导者之一。
亚琛工业大学
知名的NLP学者:Hermann Ney
NLP研究:Aachen是世界上研究语音识别和机器翻译最好的地方之一。任何时候,都有10-15名博士生在Hermann Ney的指导下工作。一些统计机器翻译最厉害的人来自Aachen,如Franz Och(Google Translate负责人),Richard Zens(目前在Google)和Nicola Ueffing(目前在NRC国家研究委员会,加拿大)。除了通常的语音和机器翻译的研究,他们同时在翻译和识别手语(sign
language)方面有一些有趣的工作。但是,在其他NLP领域没有许多相关的研究。
谢菲尔德大学
知名的NLP学者:Trevor Cohn, Lucia Specia, Mark Stevenson和Yorick Wilks
NLP研究:Trevor从事机器学习与自然语言处理交叉领域的研究工作,主要关注图模型和贝叶斯推理(Bayesian inference)。Lucia是机器翻译领域的知名学者并在这个领域组织(或共同组织)了多个shared tasks和workshops。Mark的组从事计算语义学和信息抽取与检索的研究工作。Yorick获得ACL终身成就奖,并在大量的领域从事研究工作。最近,他研究语用学和信息抽取。
达姆施塔特工业大学, The Ubiquitous Knowledge Processing实验室
知名的NLP学者:Irena Gurevych, Chris Biemann和Torsten Zesch
NLP研究:这个实验室进行许多领域的研究工作:计算词汇语义学(computational lexical semantics)、利用和理解维基百科以及其他形式的wikis、情感分析、面向教育的NLP以及数位人文学(digital humanities)。Irena是计算语言学(CL)和自然语言处理(NLP)领域的著名学者。Chris曾在Powerset工作,现在在语义学领域有一些有趣的项目。Torsten有许多学生从事不同领域的研究。UKP实验室为(NLP)社区提供了许多有用的软件,JWPL(Java
Wikipedia Library)就是其中之一。
多伦多大学
知名的NLP学者:Graeme Hirst, Gerald Penn和Suzanne Stevenson
NLP研究:他们有许多词汇语义学(lexical semantics)的研究以及一些parsing方面的研究。Gerald从事语音方面的研究工作。
伦敦大学学院
知名的NLP学者:Sebastian Riedel
NLP研究:Sebastian主要从事自然语言理解方面的研究工作,大部分是知识库和语义学相关的工作。
印度科学理工学院,班加罗尔
知名的NLP学者:Partha Talukdar
NLP研究:Partha最近的研究聚焦于使用基于图的学习算法进行大规模的信息抽取和数据集成(data integration),时序信息处理,面向大规模数据的自动知识获取及神经语义学(neuro-semantics)。
本期责任编辑:赵森栋
本期编辑: 张文博
更多资源,请在AI科技大本营公众号会话回复:资源,查看资源专题。
斯坦福大学Tensorflow深度学习课程表 &
&?&点赞和分享是一种积极的学习态度
本文已收录于以下专栏:
相关文章推荐
导语:病毒、间谍软件、黑客攻击、钓鱼网站,互联网变得越来越危险,但凡PC用户都需要一款有效、可靠的杀毒软件来保证自己的电脑安全。
我们知道,有些杀毒软件产品需要每年支付更新包费用,十分昂贵。幸运...
近几年,大数据概念十分火热,发展迅猛,各个企业都希望在大数据领域能有建树,但国内的大数据企业做得还不够,所以今天我们大圣众包就推荐6个国外大数据领域的优秀企业,跟着人家学习学习,主要涵盖云计算、数据可...
与所有其它学术领域都不同,计算机科学使用会议而不是期刊作为发表研究成果的主要方式。目前国外计算机界评价学术水平主要看在顶级学术会议上发表的论文。特别是在机器学习、计算机视觉和人工智能领域,顶级会议才是...
Spring 不但提供了一个功能全面的应用开发框架,本身还拥有众多可以在程序编写时直接使用的工具类,您不但可以在 Spring 应用中使用这些工具类,也可以在其它的应用中使用,这些工具类中的大部分是可...
/developerworks/cn/java/j-lo-spring-utils1/
Spring 不但提供了一个功能全面的应用开发框架,本身还拥有...
他的最新文章
讲师:宋宝华
讲师:何宇健
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)【五月天LIVE全記錄】一个全是灰色的歌单 - 歌单 - 网易云音乐
【五月天LIVE全記錄】一个全是灰色的歌单
五月天 就是為LIVE而生的((日了網易雲
播放:28次
网易云音乐多端下载
同步歌单,随时畅听320k好音乐
网易公司版权所有(C)杭州乐读科技有限公司运营:Computational Issues Related to Big Data Analysis
摘要 This talk will be concerned with computational issues related to big data analysis. I will focus on two major issues: large size and large dimension. For large size data, I will discuss under what situations the commonly-used algorithms are valid and under what settings data analyst should be cautious in the use of the commonly-used algorithms. For large dimension problems, I will present algorithm to find global solutions of several useful regularization problems.
李润泽:Runze Li is Verne M.Willaman Professor of Statistics, The Pennsylvania State University. He is a fellow of IMS and ASA. He was the co-editor of the Annals of Statistics from
and is an associate editor of Journal of American Statistical Association since 2006.His current researches concentrate on developing effective statistical procedures for high-dimensional data analysis, including variable selection, feature screening and hypothesis testing. He is also interested in applying these statistical procedures for analyzing real-life high-dimensional data such as genetic data analysis and functional MRI data analysis. His other research interests include non- and semi-parametric modeling and statistical applications to scientific research in social behavioral science and engineering.
大数据与商业价值
大数据技术正在不断向各行各业进行渗透。深度学习、实时数据分析和预测、人工智能等大数据技术逐渐改变着原有的商业模式,推动互联网和传统行业发生着日新月异地变化。传统企业争先恐后地拥抱大数据,而却忽略了一个问题:大数据究竟如何为企业带来商业价值?本次演讲,苏萌博士将结合大数据生态、数据科学技术的发展与百分点的行业商业实践为大家剖析:如何利用大数据实现不同行业中企业的商业价值。孤立的技术并不能解决企业在大数据时代所面临的挑战,只有深耕于行业,深入探索行业痛点,结合大数据技术,构建一整套集底层数据平台、中层管理平台与顶层应用为一体的完整解决方案,才能满足不同行业中企业的需求,帮助企业实现自身的商业价值。苏萌博士将结合百分点在金融、制造业与泛健康行业中的真实案例为大家娓娓道来,只有深耕于行业,才能发挥大数据的商业价值。
百分点集团董事长兼首席执行官,美国康奈尔大学营销模型专业博士,国家“千人计划”入选者,美国营销科学院会员,曾担任北京大学光华管理学院博士生导师、副系主任,北京大学新媒体营销研究中心执行主任。他研究的领域包括营销模型、大数据分析、个性化营销、推荐引擎、联合分析、客户终身价值、消费者行为预测等,在美国康奈尔大学师从营销模型领域大师Vithal R. Rao 教授,曾有多篇论文发表在国内外权威学术刊物上。苏萌博士一直致力于推动大数据在营销学、统计学、计算机科学等多个学科领域的交叉发展,倡导大数据商业应用的不断创新,2012年出版的著作《个性化:商业的未来》是国内第一本专注于个性化技术与商业应用的书籍。2013年,苏萌博士放弃了北大全职教授与副系主任等职务,离开了北大并全身投入到百分点的技术创新与管理工作中。2014年,苏萌博士带领团队成功研发并推出其面向企业级应用的新一代大数据平台产品“百分点数据管家”。该产品浓缩了百分点在大数据领域深耕所积累的核心技术和算法模型,完美支持PB级海量数据的采集、存储、整合和挖掘。2015年,苏萌博士带领百分点技术团队成功研发了全球首款大数据操作系统(BD-OS)。该数据操作系统可以实现海量数据的接入、加工 、处理、消费等一整套流程的可视化、智能化、系统化处理,最大化的发现、分析企业内外部核心业务数据价值、辅助挖掘现有业务和应用系统的潜在商机,实现数据应用的完整闭环。
大数据分析中的统计学习方法
摘要 在当今的“大数据”时代,科学和工程技术领域源源不断地生成新的数据,且以亿万计的规模迅猛增长。本质上,知识不是直接呈现于数据中,而是需要通过建模、计算或推理等过程把数据变为知识。机器学习是连接统计与计算的桥梁,因此它在大数据分析中居于核心的地位。这个报告将主要讨论大数据分析中的统计学习方法以及潜在研究问题。具体地,报告将通过几个实例阐述贝叶斯机器学习的建模与计算、概率随机技术在大数据计算的应用、基于图结构的架构实现技术等问题。
张志华:张志华,博士,上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。曾经获得Google公司全球Visiting Faculty计划的资助,并在Google北京研究院从事大规模机器学习算法的研发工作1年。目前主要从事人工智能、机器学习与应用统计学领域的教学与研究。是美国“数学评论”和ACMcomputing的特邀评论员,国际机器学习刊物Journal of Machine Learning Research的执行编委,作为程序委员曾服务于许多人工智能与机器学习领域国际会议,比如IJCAI、AAAI、ICML、NIPS、CVPR等。其公开课《机器学习导论》和《统计机器学习》受到广泛关注,迄今访问量达10余万次。
互联网征信数据处理和建模实践
摘要 谈谈在互联网征信如何应用ElasticSearch、NLP技术;以及在互联网征信模型建设过程中,数据处理、变量组合、特征选择,经典统计学方法与机器学习算法方面的一些体会,和如何以信贷类数据为主,加上消费类、公缴类、通讯类、用户行为等数据,整合不同类型的数据进行数据融合建模,以真实、客观反映信息主体的信用状况。
葛伟平:葛伟平,考拉征信服务有限公司联合创始人兼首席技术官,2005年复旦大学计算机软件博士毕业,2012年加盟拉卡拉,任集团副总裁,负责收单研发、系统运行、大数据平台体系架构建设和管理。2014年作为股东代表,参与组建考拉征信服务有限公司,负责数据平台、评分模型、征信系统搭建工作,带领团队先后推出了多个企业和个人信用分产品,同时兼任中国科学院大学---考拉征信模型实验室主任。
可视化是分析的一种手段:以城市数据为例
摘要 理解和利用数据是信息技术发展的迫切需求,数据可视化为人类洞察数据的内涵、理解数据蕴藏的规律提供了重要的手段和高效的人机界面,是和数据分析、数据挖掘等方法的有效补充,在一些重要场合将起到不可替代的作用。本次报告将介绍可视化可以帮助用户解决的分析的任务,如展现、理解、推理等。以城市数据(手机基站位置、手机通话、微博、出租车轨迹、POI、房价等)的分析为例展示可视化的关键价值。
陈为:陈为,1976年生,浙江大学教授。研究兴趣是数据可视化。发表70余篇国际一流学术论文,出版可视化教材2部。担任国内外期刊编委和国际学术会议主席多次。承担国基重点、优青等10余项。合作研发了多个系统,如:全球三维大气数据可视化平台、千万量级大图的可视分析系统。详见:http://www.cad./home/chenwei。
量化选股基础:三类因子模型的逻辑和实证
摘要 通过选择合适的天气相关变量与股票收益率进行关联分析来挖掘阿尔法源,并且构建股票组合后进行收益归因分析。所有的分析过程都在量化投资策略研究平台(大宽网)和数据云分析平台(开矿网)上进行,充分地利用了云平台的数据资源和计算能力。
冯永昌:冯永昌,央行互联网金融博士后,北京大学对冲基金实验室联合创始人,中国期货业协会互联网金融委员会专家委员,上海期货交易所博士后导师,对冲基金人才协会资深专家会员,北京大学、清华大学EDP、FMBA讲师。北大光华统计学博士,人大统计学学士,美国芝加哥大学访问学者。发起创办了微量网、量邦科技、量客投资等多家公司,目前担任北京量邦信息科技股份有限公司(835352),微量网公司,量客投资公司董事长。
基于中国数据的商学研究现状
摘要 近年来,已有越来越多的海内外商学研究者投入到基于中国数据源的研究。本报告从最近5年来发表于UTD-24和FT-45两个国际一流学术刊物排名中47个期刊上的全部基于中国数据源的学术论文出发,结合数据挖掘和数据可视化方法,探讨了商学领域基于中国大数据的研究现状。分析聚焦于研究领域、研究人员和研究关键词三个维度,从研究趋势和学术合作两个方向为未来的中国商学数据研究提供了有益参考。
陈宇新:陈宇新教授现为国家 “千人计划”专家,上海纽约大学商学部主任,杰出全球商学讲席教授。并曾任美国西北大学凯洛格商学院市场营销终身讲席教授,纽约大学斯特恩商学院终身教授。陈宇新教授于1992毕业于复旦大学物理学系,获理学学士;并分别于在美国圣路易斯华盛顿大学获得市场营销学硕士和博士学位。 在期间,陈宇新教授曾为硕士学位研究生就读于浙江大学计算机科学系。陈宇新教授还应邀担任百分点集团首席模型科学家。在银行,电信,汽车,电商,旅游,保险,零售,社交媒体,广告,医疗等领域从事了一系列基于数据建模与分析的咨询和研究工作。陈宇新教授正积极推进大数据营销应用领域的相关研究工作,应邀参与了大数据相关领域国家自然科学基金重点和重大项目的立项,评审和顾问工作。陈宇新教授曾荣获Frank M. Bass 最佳营销学博士论文奖、John D.C. Little最佳营销学论文奖, INFORMS营销协会长期影响提名奖,Paul E Green 最佳营销学论文奖等国际学术荣誉。陈宇新教授的研究领域主要涉及数据驱动营销, 互联网营销、竞争战略,零售、 定价、广告、结构实证模型、贝叶斯计量经济学及行为经济学等。 陈宇新教授现为国际营销科学顶级刊物《营销科学》4名高级主编之一,并曾担任国际营销学及管理学顶级刊物《营销学研究期刊》,《营销科学》、《管理科学》和《定量营销和经济学》的副主编及《生产与运营管理期刊》,《客户需求与解决方案》的高级编委。陈宇新博士现还担任INFORMS营销协会顾问委员会理事。同时,陈宇新教授还受邀担任了任期五年的香港研究资助局商学部评审委员。
数据,价值,回归
摘要 我们都说这是一个大数据时代,但是:数据到底是什么?能否给数据一个朴素的定义?这个定义背后的时代特征又是什么?如果说,我们对数据的痴迷执着是因为:数据可以产生价值。那么请问:价值又是什么?价值会体现在商业实践的那几个方面?在怎样的场景环境下,价值才能够被客户感知?在这个数据爆炸,价值却不清晰的时代,如何实现从数据到价值的回归?背后有没有一般化的方法论?想听听熊大的看法吗?咱们人大世纪馆见!
王汉生:王汉生,北京大学光华管理学院商务统计与经济计量系,嘉茂荣聘讲席教授,博导;北京大学商务智能研究中心主任;光华管理学院MBA,EMBA,ExEd,本硕博教学指导委员会成员;美国统计学会(American Statistical Association)会士(Fellow, 2014)。1998年北京大学数学学院概率统计系本科毕业,2001年美国威斯康星大学麦迪逊分校统计系博士毕业。2003年加入光华至今。国内外各种专业杂志上发表文章逾80篇,并合著英文专著1本,中文教材2本。国际统计协会(International Statistical Institute)、英国皇家统计协会(Royal Statistical Society)、美国统计协会(American Statistical Association)、美国数理统计协会(Institute of Mathematical Statistics)、泛华国际统计协会(International Chinese Statistical Association)的会员。先后历任以下国际学术刊物副主编(Associate Editor):The Annals of Statistics (), Computational Statistics & Data Analysis (2008—现在),Statistics and its Interface (2010—现在),Journal of the American Statistical Association (2011—现在),Statistica Sinica (2011—现在),Journal of Business and Economics Statistics (2012--现在),中国科学数学(2013—现在)。在理论研究方面,关注高维数据分析。具体内容有:变量选择、收缩估计、数据降维等。在应用方面,关注统计学方法在电子商务领域的应用,尤其关注中文文本分析、社会关系网络以及位置轨迹数据。
谢益辉、李舰、刘思喆
COS play R
摘要 COS 论坛上曾经有一段时间比较流行用 R “不务正业”,其大概意思也就是用 R 做一些并非与统计直接相关但好玩的事情,这个 COSPlay R 分会场的主旨便是大家一起分享一些自己觉得好玩或实用的 R 技法。上午会场由谢益辉主持,漫谈一些统计之都及 RStudio出品的 R 包的基本功能、设计细节以及历史八卦等;下午会场分别由刘思喆和李舰主持,谈谈 R的商业应用、行业案例、系统架构等。我们欢迎参加这个会场的听众也积极上台分享自己使用 R的经验、乐趣、或困惑,每一位听众大约有五到十分钟时间,请有意参与的听众在会前事先做好准备。
谢益辉、李舰、刘思喆
互联网征信中的信用评分模型
摘要 面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长。在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析,实现快速准确征信是一个非常重要的问题。为此,不同的数据都可以做出一定的贡献。本研究一方面通过追踪用户历史行为数据,建立互联网征信的信用评分模型,另一方面通过跨平台的用户简历数据融合,进一步改善了预测精度。研究表明,用户历史行为对于用户信用评估具有重大作用,且跨平台数据融合将对于预测用户信用评估有进一步的帮助。
黄丹阳 :黄丹阳,2011年于中国人民大学统计学院取得经济学学士学位,主修统计学专业,副修金融学专业。2015年于北京大学光华管理学院取得经济学博士学位,统计学专业。同年毕业回到中国人民大学统计学院任教。研究方向包括搜索引擎营销背景下的超高维变量选择问题,社交网络建模。
助力小微金融:考拉小微商户信用评分模型的开发与实践
摘要 考拉小微商户信用分是国内首款针对小微商户领域推出的征信产品,通过采集这些小微商户的基本属性、每日经营交易流水数据、工商信息,以及外部的互联网公开信息,利用机器学习算法,从商户属性、信用记录、履约能力、成长能力、经营稳定、交易行为等维度评估小微商户信用,帮助他们凭借信用申请到贷款,缓解小微企业融资难问题。本次分享将贯穿一个完整的信用评分模型构建流程,从分析、理解小微商户的信用特点出发,介绍使用R语言建立信用评分模型的主要过程以及模型在市场中的应用实践情况。
曹斐:曹斐,考拉征信高级数据分析师,北京大学软件与微电子学院硕士,曾在金融、保险、电信、生物等相关领域从事多年数据分析工作。擅长数据集成与治理、用户行为研究、金融数据建模,最容易被真正落到实处的数据产品所感动。
征信业互联网数据处理架构
摘要 互联网数据对征信业越来越重要,已成为个人和企业征信数据的重要来源。本报告从考拉征信互联网数据处理架构实践出发,详述数据采集、数据集成、数据存储、全文索引、自然语言处理以及数据服务的整个数据平台体系。着重介绍在各开源项目上改进工作,分享自然语言处理在征信数据处理中的实践经验,特别介绍文本分类、知识图谱在数据处理中应用。
程其江:程其江,中科院研究生院硕士,考拉征信数据处理总监,熟悉Hadoop生态圈、Spark生态圈、多年大数据平台建设经验,曾担任联想研究院高级研究员、Mop网技术经理等。
基于车征数据的UBI创新产品
摘要 介绍各类车征的UBI创新产品。
王亮:2015年创办车征,车征联合创始人兼CTO。2013年-2015年,宝尊电子商务金融事业部负责人,承揽了天猫保险大部分的保险业务。数十年保险行业经验,服务于多家保险公司及中介公司。
车联网大数据 --- 数据实践驱动行业发展
摘要 车联网作为物联网的分支,较之互联网大数据,物联网领域的大数据有其独到的特点,相对规模较小、单位数据成本更高、紧密联系实际场景、商业价值转化路径更短。车联网作为物联网中最成熟的应用,充分体现出上述特点,也因此,可以广泛应用于主机厂、保险公司、汽车经销商、汽车租赁企业、专车公司等各类型的场景中。对于车联网大数据应用的探索,渐渐从理论研究过渡到实际应用,伴随数据规模的扩大,不断衍生出新的价值,带动行业更加快速的发展。
李旭:李旭,北京车网互联科技有限公司监事、行业总经理,北京大学光华管理学院MBA,10年车联网工作经验,熟悉车联网、汽车售后服务、物联网大数据和UBI保险等领域,作为主要发明人,已获车联网领域多项发明专利,曾牵头组织中国移动、广汽本田、东风本田、人保财险等多项车联网项目,参与完成《基于车联网的多维大数据综合运营服务系统》项目设计规划,是中英合作项目《车联网大数据联合运营》主要参与人。
电力行业短期日负荷曲线预测
摘要 电力负荷预测在电力系统计划与运行管理中起着重要作用,随着电网系统的建设更加完善,数据质量更有保障,以及外围数据的接入,使得负荷预测工作面临着全新的局面。本次演讲从变压器的日负荷曲线预测入手,介绍电力行业背景以及开展负荷预测的必要性,另外从算法角度,提出了基于特征学习的预测算法,希望与各界朋友交流讨论。
游皓麟,高级数据分析师,专注于数据分析、挖掘、大数据领域,在互联网/电信/电力方面具有丰富的数据分析与挖掘建模经验,目前研究NLP、知识图谱等内容。曾服务于华为技术软件有限公司、深圳市康拓普信息技术有限公司、深圳市数聚能源科技有限公司等企业,期间曾在小象学院兼职R 语言数据挖掘讲师,参与过《R 语言与Hadoop 大数据分析实战》书籍的翻译工作,著有《R 语言预测实战》,今年可出版。
车联网数据与商业价值
摘要 随着互联网的发展和完善,海量数据正不断形成,车联网数据便是其中之一。车载设备提供的车联网大数据为分析用户驾驶行为提供了数据基础,该设备记录了用户驾驶过程中的车辆硬件数据、地理信息数据以及司机行为数据。车辆网大数据的出现带来了新的商机,基于驾驶人行为的保险(UBI)便是其中之一。本报告将通过车联网数据,探究影响车辆出险的重要因素,并据此构建相应的指标体系,对车辆未来出险情况进行预测,从而为车险公司提供合理的评判用户出险率的依据。
潘蕊:研究兴趣:高维数据变量选择;网络结构数据建模;地理位置数据(车联网数据)统计分析
手机传感器在车联网领域中的几点应用
摘要 智能手机的高度普及让手机收集用户驾驶行为数据从而个性化精算车险成为可能,但另一方面,手机的电池容量低影响了用户使用此类APP的意愿,手机传感器精密性不高又影响了数据源本身的质量。本次演讲分享了本人通过R语言建模和训练,将手机传感器数据应用在斑马行车上以解决上述问题的几个成功案例,包括:(1) 斑马行车的业务和数据架构介绍(2) 运用R语言构建低通滤波器并实现一种ios和android手机通用的加框自拟合计步器算法(3) 运用C5.0算法设计手机传感器智能判断用户行为状态的分类器(4)介绍斑马行车对手机传感器的其他几点应用,包括基于加速计实现一种高精度的步态方向罗盘、运用R语言实现GPS与传感器融合导航等。
胡晓伟:胡晓伟,男,1991年3月生,安徽六安人,南京大学情报学硕士,毕业后加入阿里巴巴集团天猫事业部商业智能部,入职10个月破格晋升为资深数据分析师,随后离职创业。现任斑马行车算法专家,研究方向为手机内置传感器在车联网中的应用和UBI车险精算。
自然语言生成的现状与展望
摘要 自然语言处理的研究包含着让机器理解自然语言和让机器产生自然语言。近年来,研究者们已经成功让机器自动生成诗歌或对联等富有韵律的文本。然而,自由文本的生成还不尽如人意。一方面,蓬勃发展的神经网络技术使得自然语言生成的研究取得了一定进展。但单纯依赖于神经网络技术的生成方法还存在诸多问题。另一方面,基于模板和规则的方法仍然发挥着作用。自然语言生成中的难点都有哪些?两类方法都适合解决哪些难点?两类方法能否有效结合?这些都是自然语言生成中亟待解决的问题。
李嫣然:李嫣然,毕业于北京大学智能科学专业。现任香港理工大学研究助理,研究方向为自然语言处理中的语义表达和语言生成。
Tree-Based Convolution and its Applications
摘要 Neural networks have wide applications in NLP, e.g., POS tagging, parsing, machine translation, etc. Several prevailing neural models include convolutional neural networks, recurrent neural networks, and recursive networks. In my talk, I will briefly review these models, and then introduce a novel tree-based convolutional neural network (TBCNN), which can capture structural information effectively. I have applied TBCNN to consitutency trees and dependency trees of natural language, as well as abstract syntax trees of programming language. Finally, I will discuss the advantages and disadvantages of different neural models (including the attention mechanism) in information processing.
牟力立:Lili Mou received his Bachelor's degree in computer science from Peking University in 2012. He is now a Ph.D. student, supervised by Profs. Zhi Jin, Ge Li, and Lu Zhang. His recent research interests include deep learning applied to natural language processing as well as programming language processing.
基于深度学习的中文语义分析
摘要 (1) 语义分析中的必要性,以及传统方法的局限性。大数据的核心目标是让应用变得“智能”,这就迫使我们“教会”计算机去理解自然语言的语义;传统的语义分析经历了形式化规则和机器学习两个阶段,虽然它们取得了很高的成就,但无论是在适用场景还是效果上都遇到了瓶颈,很难进一步提升。(2) 利用深度学习进行语义分析。深度学习为语义分析提供了新思路和工具,这里介绍深度学习的基本原理和常用技术,以及在语义分析上的应用思路。(3) 基于深度学习的情感分析实例。介绍百分点内部在情感分析上的应用和实现,以及取得的效果。(4) 再评深度学习。介绍深度学习与传统机器学习的异同,以及在实践中如何合理选择。
黄伟:毕业于上海交通大学计算机专业,曾在汤森路透等企业从事机器学习和自然语言处理方面的工作;现就职于百分点科技,负责机器学习和非结构化数据挖掘工作,特别是基于中文语义分析的商品自动分类、商品画像、情感分析和口碑分析等应用。同时一直在研究如何利用非结构化数据进行量化投资。
深度学习与自然语言处理
摘要 表示学习是机器学习的重要环节,在自然语言处理任务中扮演着重要角色。深度学习则是表示学习的重要技术之一,是最近的研究热点之一。报告将从词汇、短语、文档和知识图谱等几个层面,介绍以深度学习为代表的表示学习技术在自然语言处理领域的最新研究进展与前景。
刘知远:刘知远,清华大学计算机系助理研究员,主要研究方向为语义分析和社会计算。2011年获得清华大学博士学位。已在自然语言处理等领域的著名国际期刊和会议发表相关论文十余篇。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后等称号。
PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Networks
摘要 Unsupervised text embedding methods, such as Skip-gram and Paragraph Vector, have been attracting increasing attention due to their simplicity, scalability, and effectiveness. However, comparing to sophisticated deep learning architectures such as convolutional neural networks, these methods usually yield inferior results when applied to particular machine learning tasks. One possible reason is that these text embedding methods learn the representation of text in a fully unsupervised way, without leveraging the labeled information available for the task. Although the low dimensional representations learned are applicable to many different tasks, they are not particularly tuned for any task. In this paper, we fill this gap by proposing a semi-supervised representation learning method for text data, which we call the \textit{predictive text embedding} (PTE). Predictive text embedding utilizes both labeled and unlabeled data to learn the embedding of text. The labeled information and different levels of word co-occurrence information are first represented as a large-scale heterogeneous text network, which is then embedded into a low dimensional space through a principled and efficient algorithm. This low dimensional embedding not only preserves the semantic closeness of words and documents, but also has a strong predictive power for the particular task. Compared to recent supervised approaches based on convolutional neural networks, predictive text embedding is comparable or more effective, much more efficient, and has fewer parameters to tune.
唐建:唐建博士毕业于北京大学,目前为微软亚洲研究院机器学习组的副研究员。他的主要研究方向包括深度学习,统计主题模型以及这些方法在自然语言理解、网络分析、用户行为分析等领域的应用。他的主要论文都发表在机器学习和数据挖掘领域的国际顶级会议上包括ICML、KDD、WWW、AAAI以及CIKM等。他是机器学习领域国际会议ICML2014的最佳论文获得者以及多个国际会议的程序委员会成员包括WWW、IJCAI、ACL、EMNLP。
关于“P值”的那些事
摘要 针对P值的误解与滥用,美国统计学会(ASA)2016年3月正式发表了“关于统计显著性与P-值”的官方声明。通过回顾20世纪30年代假设检验理论的起源与发展,比较Fisher显著性检验与 Neyman- Pearson有效检验理论的差异,分析频率统计与贝叶斯分析的区别,强调统计思维在大数据时代的作用。结合国内统计学教学的现状,基于美国统计学会的官方声明,提出改进统计学教学的建议。
刘乐平:87.7毕业于江西大学数学系并获理学学士学位;98.7毕业于华东师范大学数理统计系并获理学硕士学位;03.7毕业于中国人民大学统计学系并获经济学博士学位;2004-至今,天津财经大学统计学与金融学,教授、博导。
一点关于Large-Scale Test的研究
摘要 Massive data is a common phenomenon in modern statistical problems. Due to its unique characteristics like heterogeneity, pre-established statistical learning methods become invalid. In this talk, we briefly review a new method to conduct inference for heterogenous massive data.
吕翔:中国人民大学大四学生。研究方向高维统计和并行计算。
带图结构的大偏差理论
摘要 我们介绍稀疏图上的一些过程的弱收敛定理和局部染色策略逼近最优策略的结果。我们说明这些结果与带图结构的大偏差理论的关系。
刘路:现在主要研究方向为数理统计。在Tran.Amer.Math等杂志上发表论文若干。
动态线性模型的商业应用
摘要 动态线性模型(DLM)是一类应用广泛的时间序列模型,贝叶斯预测方法是这种模型的经典预测算法。贝叶斯预测方法不仅仅依赖于t时刻以往的历史数据和根据模型的知识进行预测,还可包括专家的经验信息以及主观的判断来进行预测,这对于预测突发事件特别有用,而历史数据以及预先规定的模型并不能完全反映它们。当发现模型性能不好时,可求助于专家的经验和信息,对模型进行改进。贝叶斯预测方法,相对于Box-Jenkins传统的时间序列方法而言,有它的优点,它不必假设Box-Jenkins方法所必须的平稳性假设。贝叶斯预测方法通过人的主观经验给出先验分布,使得对数据量的要求大大减少。本演讲分三个部分(1) 以多渠道营销的动态ROI评估为案例背景,介绍DLM的模型形式(2) 介绍DLM的其他应用场景:百度旅游预测等(3) 介绍我们在实际项目中如何设计估计DLM模型的R包,如何将R包的分析功能通过API的方式整合到业务系统中。
陈堰平:雪晴数据网(www.xueqing.tv)创始人,主要从事统计咨询、数据分析、开发基于R语言的定制化统计软件,曾给惠普中国研发中心、花旗银行、东方航空、中国电信做过培训和咨询。现在同时也是统计之都理事会成员、中国R语言会议理事会成员,译作有《R语言编程艺术》《实用数据分析》,目前还参加其他几本R语言图书的编写和翻译。
Comparing Pruning Methods in Perturbation DSGE Models
摘要 We study the rationale and performance of DSGE perturbations that are pruned to guarantee stable simulations. We show that the moving average representation of the policy function is naturally pruned and express the nonlinear moving average recursively. This recursive algorithm differs from pruning algorithms and the rationale provide by series expansions in that it evaluates risk at the stochastic instead of the deterministic steady state. We compare seven different pruning algorithms at second and third order, documenting the differences between these algorithms and standard (non pruned) state space perturbations at first, second, and third order in a unified notation. The nonlinear moving average is the most accurate and the series expansion the
yet the two algorithms perform comparably, suggesting that this choice is unlikely to be a potential source of error. Alternative ad hoc algorithms from the literature suffer a loss of accuracy to varying degrees as they include terms inconsistent with or neglect terms consistent with the order of approximation.
兰弘:对外经贸大学助理教授。博士毕业于德国洪堡大学,研究兴趣为随机动态模型的数据方法、宏观金融学。
基于Copula模型探究新闻情绪和股票收益的相关性
摘要 应用多元t-Copula函数构建多维联合分布,对不同情绪的新闻文本数量和股票收益的相关性结构和尾部相关性进行了研究,发现正面新闻情绪和股票收益相关性较强而负面新闻情绪有一定的滞后性。结果表明,在探究多个变量的非线性相关性问题上,Copula函数更为灵活和准确,在金融领域有广泛的应用前景。本演讲将以R语言环境为背景,从新闻文本的爬取和分词入手,介绍如何得到关于新闻文本和股票收益的边际分布函数并通过多元t-Copula函数构建它们的联合分布,从而达到探究新闻情绪和股票收益相关性的目的。
胡睿:中央财经大学统计学专业12级本科生,一个正在努力成为数据科学家的数据爱好者
R and Tableau: Smart Meets Fast
摘要 Tableau is a visual reporting application that connects directly to R. It’s designed for you, the domain expert who understands the data. Its drag-and-drop interface allows you effortlessly connect to libraries and packages, import saved models, or write new ones directly into calculations, visualizing them in seconds.Join us to see how you can use Tableau alongside R to speed up your data science projects and get them in front of more eyes, leading to smarter, data-driven business decisions.
刘琳珂:刘琳珂现任Tableau 大中国区首席产品顾问,负责管理大中华区的咨询团队,帮助用户快速分析、探索、可视化数据的价值。刘先生在商务智能和数据仓库领域从业15年,曾任职于Sybase,BusinessObjects,SAP,Qlikview,Oracle。从事商务智能和数据仓库解决方案和技术架构服务。其专注的领域包括:商务智能、数据库、数据仓库、数据云架构、可视化分析等。
Really? Using the nullabor Package to Learn if What We See is Really Tthere?
摘要 Plots of data often provoke the response "is what we see really there". In this talk we will discuss the use of the nullabor package to assess the significance of structure discovered by exploring data visually. Classically, quantifying significance with p-values required a rigorous protocol involving several steps: hypothesis formation, data collection, test statistic calculation, and comparison with a reference distribution requiring strict assumptions. The nullabor package implements the lineup protocol, which compares a plot of data with plots of null data. The lineup protocol is named after the "lineup", popular from criminal legal procedures. The nullabor package has several methods for generating null data, randomises and encodes the position of the data plot, and all the power of ggplot2 for making data plots. This package enables the data analyst to quantify their findings as different, or not, from spurious patterns. Joint work with Hadley Wickham and Heike Hofmann.
Di Cook:莫纳什大学经济与商学院教授。
微博轨迹可视化
摘要 我们以人们发布的带有地理信息的社交媒体数据为切入点,来观察、探索与分析个人的行为轨迹,乃至群体行为特征。以新浪微博为例,将用户带有地理信息的微博按照时间顺序连接起来,就可以构造出他们在实际物理空间中的稀疏轨迹。通过合理的可视化设计方案,可以构造出每个社交媒体用户带有明显个人特征的轨迹,例如旅行爱好者、商务白领、学者等,每个人的轨迹不尽相同。这些轨迹的每个采样往往都含有时间、文本、图片等丰富的信息,可以讲述一个个精彩的故事。我们的可视化系统允许用户探索自己以及好友的“微博足迹”,每个人都可以参与进来,共同分析轨迹特征。进一步地,我们实现了一个社会人群移动的群体行为的可视分析系统,让用户交互地发现群体行为中的空间、时间以及多维属性上的规律。
陈思明:北京大学博士研究生,来自北京大学可视化与可视分析实验室。热爱并致力于发展可视分析技术,相信用技术与设计可以让数据生动鲜活。研究方向包括时空数据、社交媒体与网络安全的可视分析技术研究。研究成果发表于IEEE VAST (TVCG)、VizSec等国际知名会议与期刊上,参与IEEE VAST Challenge可视分析竞赛并获得多项一等奖。工作之余,兴趣在于旅行、对联与诗词。
ECHARTS NEXT --- 数据 · 视觉编码 · 交互
摘要 介绍 ECharts 3 与可视化,包括可视化中的不同类别数据的常见可视化方式,数据的分类,颜色,glyph,尺寸等可视编码手段,还有可视化中常见的动画,交互等。
沈毅:百度资深前端工程师,目前主要负责维护 ECharts
阿里云数据大屏探索
摘要 数据可视化的核心价值在于把多样的信息融合在一个界面中友好的体现,让人能更容易的把握整体业务全景,降低数据理解分析门槛,创建数据共享平台,实现可视化分析。
闻啸:目前负责阿里云数据引擎数据可视化团队。从最早跟随团队将数据可视化概念引入公司,让公司对外数据展示项目升级换代,到抽象需求建立通用的datav.js数据可视化前端js组件库,并一步步将数据可视化真正落地到产品,帮助数据可视化在阿里巴巴内部从一个光鲜炫酷的新兴概念,扎根成为了帮助数据分析,简化数据理解的本质需求。
利用R语言进行交互数据可视化
摘要 数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式。本演讲会带领大家一起了解如何用R语言绘制交互的柱状图、气泡图、时序图、社会网络图、股价图、文氏图、treemap图、平行图等,并用游戏数据演示如何将这些交互图应用到实际生产环境中。令参会者们迅速掌握利用R绘制不同交互图。
谢佳标:多届中国R语言大会演讲嘉宾,目前在创梦天地担任高级数据分析师一职,作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘,主要利用R语言进行大数据的挖掘和可视化工作。本人从事数据挖掘建模工作已有8年,曾经从事过咨询、电商、电购、电力、游戏等行业,了解不同领域的数据特点。有丰富的利用R语言进行数据挖掘实战经验。
An New Confidence Interval for the Population Proportion in Binary Clustered Data
摘要 Binary clustered data are common in biomedical studies. In this paper we construct a new confidence interval of the response proportion in clustered data. The idea of our construction came from Wilson interval for a binomial proportion. The coverage probability of the existing confidence intervals are poor when the true portion is small or large. Our proposed confidence interval obviously improve the performance in that case. With regard to the criterions of coverage probability and expected length, the new confidence interval is better than the other existing methods in simulation studies. A real data example is also presented to show the application of our method.
霍剑:霍剑,中国人民大学统计学院博士生,研究方向:生物医学统计,曾参与医药行业、保险行业等国家级项目四项,获2015年中国卫生统计学术研讨会优秀论文奖等。
Encoding and Decoding of Minds from Neural Activities
摘要 Human brain constitutes of billions of neurons working together to represent moment-to-moment minds. One tale of neuroscience is to understand how the information is encoded in the brain, and the other tale is to decode the dynamic minds from the tons of recoded neural activities. In this talk, I will briefly introduce the current frontiers about how far we understand the encoding mechanisms and how far we can decode the minds from the recorded neural activities in neuroscience.
万小红:2013年青年千人计划引进人才,认知神经科学与学习国家重点实验室PI,麦戈文脑科学研究中心PI。
认知医疗与健康大数据分析
摘要 中国的医疗行业面临着日益严峻的挑战。一方面患者数量(特别是慢性病患者)非常庞大,另一方面医疗资源稀缺且分布严重不平衡。通过认知计算和大数据分析技术,能够优化医生的诊疗过程并提高患者的自我管理水平,是改善目前医疗状况的有效手段。一方面,通过自然语言处理与知识推理等技术,可以从大量医学文献及临床指南中获取治疗方案建议和医学证据,为医生提供专业可靠的临床决策支持。另一方面,利用机器学习与数据挖掘技术,能够在临床研究数据、电子病历、医保数据、医学影像等健康数据的基础上,实现更精准的疾病风险预测、患者精细分群和治疗路径挖掘,不仅能为医生提供精准化的治疗路径建议,并且能为患者提供个性化的自我管理工具。目前,通过与专业医院及区域卫生机构合作,认知计算与大数据分析技术在医学研究和临床实践上已取得突破,未来将产生更深远的影响。
李响:李响,2011年毕业于浙江大学计算机学院并获得博士学位,目前是IBM中国研究院认知医疗部的研究员。研究兴趣包括医疗信息学、机器学习和数据挖掘,在疾病风险预测、治疗路径挖掘、病历信息抽取等方面进行了大量研究工作。
医疗问题中复杂系统的建模,监测,优化,以及控制问题
摘要 信息科技的发展提供了很多前所未有的机会去解决一些复杂的医疗问题。这些机会包括:新的数据收集方法、新的监测手段、新的交流方式等。“解决”在这里比治愈更加广义,其意味着更好更有效的管理。比如在老年痴呆的疾病研究中,有一个被广泛接受的观点是,只要疾病能在发病的过程中被及时发现,有效的预防或者其他医疗方案就能被及时使用、去减缓发病过程或者病症,维持病人的大脑健康以及生活能力等等。又如在青少年糖尿病的管理之中,及时发现诱发糖尿病的因素能帮助携带发病基因的人群“对症下药”去改变自己的环境,改变自己的生活习惯和饮食结构等等。类似的例子还能在其他很多医疗问题中找到,比如抑郁症,或者美国老兵医院最近开始实行的个性化医疗计划和管理。因此,本次演讲的目的是介绍这些医疗问题中的统计以及管理问题以及我在这些问题上的研究工作。事实上,在寻求这些问题的有效解决方案的过程中,我逐渐意识到这些问题之所以难解,是因为它们牵涉到一个个动态的复杂系统。这超出了统计中常有的一些概念比如总体或者样本的范畴。对于这些医疗问题中的复杂系统,怎么利用统计的方法去建模,怎么结合统计、运筹学以及其他管理科学去监测、优化、控制并且怎么把这些方法通过什么样的决策框架下真正在医疗决策问题中产生实效,是我的研究的主要内容。
黄帅:黄帅,现任职美国华盛顿大学-西雅图分校的工业工程系助理教授。黄帅于2007年在中国科技大学少年班获得统计学位,于2012年在美国亚利桑那州立大学工业工程系获得博士学位。其主要研究方向是结合统计、机器学习、运筹方法,研究一些医疗管理以及工程领域里面的复杂决策问题。具体应用比如老年痴呆、青少年糖尿病、手术感染等问题的监测和预防等等。从医疗问题出发,这些研究成果可以被广泛的应用在其他各类复杂系统之上,比如制造业或者供应链管理。他的研究获得了美国自然科学基金(National Science Foundation),Juvenile Diabetes Research Foundation, 以及其他一些医学基金会以及医学机构的资助。有关他的具体研究工作,可以在他的主页上了解更多:/site/shuaihuang28/。
Association Discovery and Diagnosis of Alzheimer's Disease
In biological and biomedical research, the analysis and diagnosis of many complex diseases, e.g., Alzheimer’s disease, can be based on a number of data sources or views, such as genetic variations and the phenotypic traits. This brings a new machine learning setting where the objectives are of two folds -- to make diagnosis and to study the association between the genetic variations and the phenotypic traits. In this talk, we discuss a new sparse Bayesian approach for joint association study and disease diagnosis. In this approach, common latent features are extracted from different data sources based on sparse projection matrices and used to predict multiple dis in return, the disease status can guide the discovery of relationships between data sources. I will also discuss how to take advantage of the linkage disequilibrium (LD) measuring the non-random association of alleles to guide the selection of genes. Finally, I show analysis on imaging genetics datasets for the study of Alzheimer’s Disease.
徐增林:徐增林,电子科技大学教授、博士生导师,中组部“青年千人计划”入选者,现任电子科技大学大数据研究中心数据挖掘与推理研究所轮值所长, 并创建统计机器智能与学习实验室(Statistical Machine Intelligence and LEarning, SMILE, /)。徐增林教授主要研究兴趣为机器学习及其在社会网络分析、互联网、计算生物学、信息安全等方面的应用。他在包括IEEE TPAMI, IEEE TNN,NIPS, ICML, IJCAI, AAAI等顶级会议和刊物发表论文近30篇,引用近千次,发表专著2部,书籍章节2篇,并于2015年的AAAI大会获得最佳学生论文奖提名。徐增林于2012年在多伦多召开的国际人工智能大会(AAAI)上做教学报告。徐增林教授是JMLR, IEEE TPAMI等机器学习与人工智能领域主要期刊的审稿人和香港教育资助局的基金评审人;多次担任人工智能领域的主要国际会议如AAAI/IJCAI等会议的程序委员会成员;多次担任机器学习和大数据研究方面的研讨会的组织委员会主席。
CTA策略研究方法和寻优中的统计学处理
摘要 介绍常见期货程序化交易策略的开发原理和几个常见策略,以及策略参数估计中常见的问题和统计学处理,抽样可以有效降低计算成本,而局部线性回归可以处理寻优后的参数曲面,更好的找到光滑区域,确定较好的参数。
冯永昌:冯永昌,央行互联网金融博士后,北京大学对冲基金实验室联合创始人,中国期货业协会互联网金融委员会专家委员,上海期货交易所博士后导师,对冲基金人才协会资深专家会员,北京大学、清华大学EDP、FMBA讲师。北大光华统计学博士,人大统计学学士,美国芝加哥大学访问学者。发起创办了微量网、量邦科技、量客投资等多家公司,目前担任北京量邦信息科技股份有限公司(835352),微量网公司,量客投资公司董事长。
建立基于R语言的后验系统
摘要 近5年国际国内市场投资经历,精通各种市场中性量化选股模型。对各种市场因子有深入独到的运用,并且利用国内外先进的风控系统严格控制并且对冲市场风险。善于使用数量模型发掘市场规律,探查市场风险,合理稳健的操作投资组合。使用R语言对股票,股指期货等各种投资标的进行数据处理,回测,交易,清洗等量化投研和交易工作。1)使用R进行平行计算,用以测算多因子绩效;2)调用择时策略所需要的技术指标;3)股票多空策略中的有约束条件的多因子优化;4)使用R进行数据库管理
金戈:北京大学物理学学士,弗吉尼亚大学物理学博士。现任念空科技基金经理。曾任职千禧基金分析师、鸣石投资基金经理。
解密高频交易
摘要 在金融交易领域中,高频交易经常备受争议,被许多人认为是扰乱和操纵市场的重要源头。该报告介绍了简单高频交易策略的金融原理、技术框架以及存在的一些难点和相关问题。
任坤:毕业于厦门大学金融系和王亚南经济研究院,目前在深圳从事量化策略研发和工具开发的工作。
让投资研究更简单 --- R与投资研究
摘要 金融科技近年来成为最热的方向之一。随着云计算、可视化、去中心化等计算机相关技术的发展,计算机技术对金融的渗透已经从以“余额宝”为代表的销售渠道,逐步深入到金融机构日常的投资研究当中。况客科技是成立于2015年的一家金融科技创业公司,公司致力于通过互联网、大数据和人工智能的前沿技术提高资产管理行业的投资研究水平,让投资研究变得更加简单。作为一门简单实用的科学计算语言,本次演讲我将会介绍R在况客一体化投研平台上所扮演的重要角色。
林伟林:况客科技联合创始人、汇迪投资管理CEO,曾就职于JT Capital和博时基金固定收益部。
用R语言进行量化风控
摘要 (1) 量化风控初步介绍,个人及机构进行量化风控的意义何在(2) 为什么选择R进行量化风控(3) 实例展示如何进行风险量化及金融参数计算(4) 我国二级市场的特点及描述性分析(5) 如何将分析型工具R,拓展成服务器架构性的风控系统
李翛然:干过精算,跑过投行。现在潜心为广大人民群众出谋划策,管好钱袋子。少赔点,多赚点。
樂透彩卷的投資策略與回測效果
摘要 在這個演講中,我們將詳細探索(1) 投資策略的各種重要參數(2) 樂透彩卷的各種時間 pattern 與空間 pattern(3) 如何運用樂透彩倦的 pattern 制定投資策略(4) Trend Following Versus Mean Reversion(5) 如何控管整體 "瘋險" 與資金部位
張家齊:Founder of Taiwan R User Group & MLDM Monday
电信网络中的KQI和KPI的异常检测
摘要 在现代生活中,电信网络已经成为和自来水系统等一样重要的基础设施,方便了每个人的生活。在网络的运维过程中,为了了解一个小区的网络运行状态,电信网络定义了很多统计指标(KQI和KPI)。当某个小区的网络出现异常时,这些指标相应地也会表现出一些异常。通常,网络工程师通过分析这些指标来管理整个网络。由于通信网络的规模日益庞大,一个中等规模的城市都拥有数万个小区。我们提出了一个网络KQI、KPI的异常检测算法,用以辅助网络工程师对全网小区的数据进行快速的异常检测,寻找KQI和KPI之间的异常关系,帮助网络工程师快速定位问题,提升网络运维效率。
张建锋:张建锋,2010年毕业于四川大学数学系,获得统计学学士学位;2014年加入华为中央研究院诺亚方舟实验室,从事电信领域大数据的研究和应用工作。
工业大数据分析实践分享
摘要 随着物联化和智能制造的推进,工业大数据成为互联网、计算机(如电信)大数据之外的一种重要的大数据应用类型。本报告将基于重型机械、风电、石油石化的6个客户应用案例,讨论工业大数据与商务大数据的差异,总结其关键时序或时空模式挖掘算法,以及对大数据平台在时序压缩、时空模式查询、分析并行化等方面的需求。最后,介绍我们在时间序列特征提取的R package、基于map-reduce的R分析任务并行化引擎等方面的一些工作。
田春华:昆仑智汇数据科技(北京)有限公司首席数据科学家,2004年1月清华大学自动化系博士毕业。2004年---2015年在IBM中国研究院工作,负责数据挖掘研究和产品工作,分析应用成果在美国西南航空、香港水务署、韩国能源、和记黄埔等国际领先企业实施应用,发表学术论文(长文)82篇(其中第一作者42篇),拥有36项专利申请(10项已授权)。研究兴趣是数据挖掘算法与应用。
空间统计模型在半导体制造质量研究中的应用
摘要 集成电路(芯片)是一种被广泛应用于工业生产和日常生活中电子元件。由于其结构紧凑,功耗较低,工作效率高,便于自动化控制等优点,集成电路产业在近几十年中得到了迅速的发展。芯片通常以半导体硅片(也称晶圆)为基础逐层加工,基于一定的生产工艺,元件层状分布在硅片表面上以满足一定的电路需求。在实际生产中,硅片表面可划分为若干(数十至数百个)区域,每个区域中包含一个集成电路芯片。集成电路的生产过程,涉及到数百步骤,需持续若干星期。随着制造技术的发展,单一硅片表面可生产的芯片数量规模也逐渐增加。而由于空间位置的邻近,芯片之间必然存在着强烈的空间相关性。空间相关性的存在打破了传统统计模型各采样点“独立”的假设。这种新的数据特征对半导体制造行业的统计质量模型提出了挑战。空间相关性模型在疾病统计、气候研究以及生物分布等领域已经有了较广泛的应用,而在半导体制造行业中的研究还并不充分。以硅片表面的芯片缺陷为研究对象,结合空间统计学知识,可以建立包含空间信息的良品率模型。该模型可以并通过R语言进行建模和求解,并与现有模型对比。
王好:本科就读于天津大学工业工程系,现就读于清华大学工业工程系,博士二年级在读,研究方向为半导体制造和3D打印过程的统计质量模型
制造系统中利用传感数据对生产过程的监测与诊断
摘要 随着先进传感技术和大规模数据采集技术的快速发展,在先进制造系统中采集各环节的生产数据已经成为可能,而利用这些传感数据实现生产过程的在线监控与诊断,已经成为先进制造领域的研究热点之一。本报告主要针对生产过程中产生的各类传感数据,结合工程物理知识,对生产工况进行有效识别和监测。
张玺:从事对复杂系统的工程数据分析和相关建模工作,达到对系统的有效监控、诊断和优化。研究成果在先进制造系统、公共医疗系统等领域得到良好应用。
Reliability Optimization for Series Systems under Uncertain Component Reliabilities in the Design Phase
摘要 We develop an optimization model to determine the reliability design of critical components in a serial system. The system is under a service contract, and a penalty cost has to be paid by the OEM when the total system down time exceeds a predetermined level, which complicates the evaluation of the expected cost under a given reliability design. Furthermore, in the design phase for each critical component, all possible designs are subject to uncertain component reliability. We propose three evaluation methods which take different types of uncertainty into account. Numerical results show that the full uncertainty method which includes the randomness of the number of failures as well as the randomness of the failure rates performs very well. We also show that ignoring the two types of uncertainty results in bad design decisions.
彭皓:Hao Peng is an Assistant Professor in the Academy of Mathematics and Systems Science, Chinese Academy of Sciences. She received the Ph.D degree in Industrial Engineering from the University of Houston, Houston, TX in 2010. She received her Bachelor degree in Industrial Engineering from Tsinghua University, Beijing, China (2006). Her research interests are optimization for condition-based maintenance, quality and reliability engineering for evolving technologies. She was awarded the Marie Curie career integration grant from European Commission in 2012. She is a member of INFORMS and IIE.
个性化制造让定制不再奢侈
摘要 作为人类社会的支柱产业,制造业正受到大数据时代的巨大冲击。无论是德国提出的工业4.0,还是《中国制造2025》,都明确指出大数据已成为下一次工业革命中的关键技术。然而如何利用大数据等新一代信息技术,推动工业化和信息化的两化融合,是目前亟待解决的重要议题。随着互联网时代的到来,要求企业从以自身为中心转变为以用户为中心,从大规模制造转变为个性化定制,大数据将在这样的转变中起到关键性作用。本次演讲围绕制造产业链——从研发设计到生产运营,如何应用画像技术和数字协同等大数据手段实现个性化定制,并初步达成融合工业化生产和信息化协同的管理目标。
谢帅:百分点集团咨询顾问,中国科学院大学 MBA。多年制造过程服务优化、供应链管理咨询经验。精益六西格玛黑带认证、TQM认证、ITIL v3 Expert。目前从事大数据应用与智能制造相关咨询工作。
SparkR的最新进展和趋势
摘要 Apache Spark从1.4版本加入R语言API,为R社区提供了分析处理大数据的新手段。历经1.5,1.6以及即将到来的重要的2.0版本,Spark社区一直在为SparkR贡献新的特性,提高SparkR的易用性和性能,同时SparkR的生态系统也有了一些发展。本演讲将介绍SparkR最新的特性和状态,重点是UDF(在DataFrame上应用用户定义的R代码)和机器学习的算法,同时也将探讨它的发展趋势。
孙锐:孙锐,英特尔上海大数据架构师。Hive,Spark开源项目贡献者,SparkR主力贡献者之一。
基于GPU异构集群的大规模分布式深度学习算法优化
摘要 深度学习的出现极大的促进了机器学习相关领域的发展,其在视觉,语音,自然语言处理等诸多领域的成功应用,掀起了新一轮的人工智能热潮。相较于之前的机器学习算法,深度学习的一个重要特点在于通过大量的训练数据,来自动的提取特征,因而在模型训练阶段需要消耗大量的计算资源,训练时间往往长达数星期、甚至几个月。异构集群的特点在于使用更少的节点数,更低的能耗来提供更强的计算能力,因此非常适合于深度学习领域。由于异构集群的复杂性,如何将深度学习算法高效的映射到硬件上,是一个非常困难的问题。我们的工作采用基于GPU的异构集群,通过一系列的优化手段,最终获得了32个GPU相对于单GPU接近25倍的收敛加速。
颜深根:颜深根博士毕业于中国科学院大学,是香港中文大学博士后,曾就职于百度研究院,现任SenseTime总监级主任研究员。研究兴趣包括大规模异构并行,深度学习,图像识别等。曾于2013年6月至2014年2月在美国北卡罗来纳州立大学访问交流。博士期间发表的两篇论文被并行计算领域顶级会议PPoPP 13和PPoPP 14分别录用。在百度期间主要负责大规模深度学习训练系统建设,大规模深度学习算法优化,另外在博士期间参与了《OpenCL异构计算》一书的翻译及作为核心成员参与了OpenCL版本OpenCV的开发。
Stochastic Dual Coordinate Ascent with Adaptive Probabilities
摘要 In this talk we present an adaptive variant of stochastic dual coordinate ascent (SDCA) for solving the regularized empirical risk minimization problems. Our modification consists in allowing the method to adaptively change the probability distribution over the dual variables throughout the iterative process. Our method achieves provably better complexity bound than SDCA with the best fixed probability distribution, known as importance sampling. However, it is of a theoretical character as it is expensive to implement. We also propose a practical variant
which in our experiments outperforms existing non-adaptive methods.
Qu Zheng:My research focuses on developing and analyzing novel optimization algorithms capable of solving big data problems. Algorithms aspiring to achieve this goal must be highly granular and parallel / distributed in nature so as to exploit the power of modern high performance computer systems. Modern optimization methods need to address novel challenges brought up by the big data nature of the problems and need to rely on elements such as acceleration techniques, randomization, asynchronicity and communication avoiding strategies.
大规模机器学习及其应用
摘要 大数据给机器学习带来了很大的机遇和挑战。面向大数据量的机器学习,通常需要设计分布式系统跟算法来处理上百亿特征和数据。本报告将分享大规模机器学习的技术与过程,介绍大规模机器学习面临的问题以及在阿里的应用。
周俊:从事大规模机器学习的相关工作。
设计模式选讲:以caffe为例
摘要 当架构一个领域专用框架的时候,我们既要考虑要当前的需要,也要为未来一定时间的需求变化留出空间。赋予系统拥抱变化的能力是否有一些实践经验可循呢?本报告将会以caffe为例介绍部分设计原则和设计模式,包括但不限于SOLID原则和responsibility chain,composite,builder等模式
骆颇:复旦计算机学院计算机视觉方向研究生。
What Does That P-value Mean?
摘要 Scientific discovery via data analysis is of central importance in applied statistics. Modern big data science requires even more such effort, thus multiplicity becomes a ubiquitous issue in statistical inference using high-dimensional data. This presentation investigates the topic of multiple testing and points out different key perspectives of the use or misuse of inferential statistics such as p-values. Multiple empirical examples are given, including the applications in traditional epidemiology and high-throughput genomic data analysis for gene discovery. Highlighted here is the gap between statistical inference in science and conventional mathematical statistics, from which we should clearly emphasize the importance of focusing on data-driven rather than math-oriented statistics in education.
沈侠:Dr Xia Shen is a statistical geneticist who received his PhD from Uppsala University. He is recently appointed as a Chancellor’s Fellow (assistant professor) at the University of Edinburgh and also works part-time as a PI at Karolinska Institutet. Dr Shen has developed various statistical tools and conducted novel analyses in genetic studies, e.g. the hglm and bigRR packages for random effects modeling with applications in high-throughput g genome-wide association analysis of genetic va multivariate methods in genome-wide association analysis. Dr Shen is also a developer of the GenABEL project for statistical genomics.
R语言在医疗人工智能的应用
摘要 近年来,大数据医疗越来越热,人工智能也如火如荼,深度学习、GPU计算等先进技术也进入了寻常百姓家。这些领域的结合是如今大数据医疗的方向。本次演讲将会根据真实的应用场景举例,介绍R语言和这些前沿技术的融合及在医疗健康领域发挥越来越重要的作用。
李舰:李舰,统计之都的核心成员之一,R语言社区的活跃用户,开发了 Rweibo、Rwordseg、tmcn、Rofficetool 等包,也是中国R语言会议的组织者之一。撰写了《数据科学中的R语言》,参与翻译了《R语言核心技术手册(第2版)》和《机器学习与R语言》。专注于数据科学在行业里的应用,在制药医疗、零售快消、工业制造等领域有丰富的实践经验。
用数据撰写每个家族的传奇
摘要 2016年4月份在Nature Genetics上发表的论文通过对1244个男性的Y染色体

我要回帖

更多关于 如何成为一名黑客 的文章

 

随机推荐