如何准备机器学习工程师的面试

额头深刻的皱纹和斑驳的脸庞,让人感受到岁月的无情。
当地人给断掉的鼻子贴上了创口贴,一时在网上走红。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光率和关注度。机器学习已经以一种高调姿态闯入广大民众的意识当中,无论是采用机器学习等相关技术的Google AlphaGo以5局4胜的战绩打败人类世界的围棋冠军,还是采用了机器学习技术的Twitter能够鉴定是否你在酩酊大醉的时候发布了推文,无论你通过怎样的方式发现并知道机器学习技术的存在,有一件事不言而喻:机器学习的时代已经到来。
  尽管机器学习技术看起来这般神器,但是对于机器学习技术的好奇心是一码事儿,而想要让该技术在相关产业当中发挥作用实际上又是另外一码事儿。这篇文章将会帮助你了解作为一名机器学习工程师具备怎样的思维方式以及需要什么样的专业技能才可以开展工作。
  如果你正在考虑投身机器学习工程师的职业生涯,那么在一开始的时候,你必须弄清楚两件非常重要的事情。首先,机器学习工程师的岗位并不是一个“纯粹的”学术角色,你不需要具备科学研究经验或者专业的学术教育背景。其次,如果你仅仅具备软件工程师的能力或者仅仅具备数据科学的经验还远无法成为一名合格的机器学习工程师,除非你同时掌握以上两方面的技术经验。
  数据分析 Vs. 机器学习工程师
  如果想成为一名机器学习工程师,那么你必须弄清楚前者和数据分析师之间的区别,而且这非常重要。简单来讲,两者之间最为关键的区别就是他们最终的目标大相径庭。作为一位数据分析师,你的主要职责就是分析数据,并从这些抽象的数据当中提炼出具体的能让大家明白的故事,并从中产生具有可行性的洞察。
  数据分析工作的重点就是向公众传播并展示图表、模型已经可视化效果。数据的分析和展示由人类执行,并且其他人会根据你展示的数据做出商业决策。尤其是这一点必须引起你足够的重视――你数据分析后产生的结果的“受众”是人。但是从机器学习工程师的角度来看的话,他们最终输出的结果是一种可以工作的软件(而不是你一路以来创建的分析结果或者可视化图形),并且你所输出结果的“受众”通常由其他软件插件组成,只需很少在少量人力劳动的监护下这些软件插件就可以自行运转。软件的智能性意味着可行性,但是在机器学习模型中,决策的制定由系统来决定,并且系统可以影响产品或者服务的行为方式。这就是软件工程技术为什么对机器学习工程师而言如此重要。
  Understanding The Ecosystem――弄懂软件的生态系统
  在你开始着手学习具体技能之前,我还要再向大家阐明另外一个概念。成为一名机器学习工程师必须要求你自己能够清楚地了解你所设计的整个软件系统。
  让我们打个比方,如果你正在为一个连锁店项目工作,并且公司需要根据客户以往的购买历史开始有针对性的发放优惠券,目的是想生成能够让消费者可以实际使用的优惠券。
  在数据分析模型当中,你可以收集消费者的采购数据,对这些数据分析之后可以观察出消费者的采购行为趋势,并据此提出响应的策略。机器学习的方法是编写一个可以自动生成优惠券的系统。但是学习采取什么方式才能编写出这样一种系统呢?这种方式奏效吗?你不得不去通盘了解项目开发所处的生态系统――包括商品库存、商品类目、价格、采购订单、销售点终端软件、CRM管理系统等等。
  归根结底,项目的处理流程和机器学习算法的理解关系不大,或者和应用他们的方式和时间也没有太多关系,但是却需要你能够对系统的相互关联性有很深入的了解,并需要你可以成功编写一个具有高度集成和接口功能的软件。请切记,机器学习输出的结果实际上是一个可以有效运行的软件!
  现在,就让我们开始了解成为一名机器学习工程师所需要注意的各种细节方面的事宜。我们会把这些信息分成两个基本点进行阐述:技能简介以及语言和库。首先我们将从技能介绍开始,在日后的内容中我们将介绍机器学习的语言和库。
  技能简介
  1. Computer Science Fundamentals and Programming
  计算机科学基础和编程
  对机器学习工程师而言,计算机科学基础的重要性包括数据结构(数据堆栈、队列、多位数组、树形以及图像等等)、算法(搜索、分类、优化、动态编程等)、科计算性与复杂性(P对NP、NP完全问题、大O符号以及近似算法等)和计算机架构(存储、缓存、带宽、死锁和分布式处理等等)。
  当你在编程的时候必须能够对以上提到的这些基础知识进行应用、执行、修改或者处理。课后练习、编码竞赛还有黑客马拉松比赛都是你不可或缺的磨练技能的绝佳途径。
  2. Probability and Statistics
  概率论和数理统计
  概率的形式表征(条件概率、贝叶斯法则、可能性、独立性等)和从其中衍生出的技术(贝叶斯网、马尔科夫决策过程、隐藏式马可夫模型等)是机器学习算法的核心,这些理论可以用来处理现实世界中存在的不确定性问题。和这个领域密切相关的还有统计学,这个学科提供了很多种衡量指标(平均值、中间值、方差等)、分布(均匀分布、正态分布、二项式分布、泊松分布等)和分析方法(ANOVA、假设实验等),这些理论对于观测数据模型的建立和验证非常必要。很多机器学习算法的统计建模程序都是可以扩展的。
  3. Data Modeling and Evaluation
  数据建模及评估
  数据建模就是对一个给定的数据库的基本结构进行评估的过程,目的就是发现其中所蕴含的有用模式(相互关系,聚合关系、特征矢量等)和/或者预测以前案例(分类,回归、异常检测等)的特征。评估过程的关键就是不断地对所给模型的优良性能进行评价。根据手中的任务,你需要选取一种恰当的精准/误差衡量指标(比如日志分类的损失、线性回归的误差平方和等等)和求值策略(培训测试、连续Vs. 随机交叉验证等)。通过对算法的反复学习,我们可以发现其中会存在很多误差,而我们可以根据这些误差对模型(比如神经网络的反相传播算法)进行细微的调整,因此即使你想能够运用最基本的标准算法,也需要你对这些测量指标有所了解。
  4. Applying Machine Learning Algorithms and Libraries
  应用机器学习算法和库
  尽管通过程式库/软件包/API(比如scikit-learn,Theano, Spark MLlib, H2O, TensorFlow等)可以广泛地实现机器学习算法的标准化执行,但是算法的应用还包括选取合适的模型(决策、树形结构、最近邻点、神经网络、支持向量机器、多模型集成等)、适用于数据的学习程序(线性回归、梯度下降法、基因遗传算法、袋翻法、模型特定性方法等),同时还需要你能够了解超参数对学习产生影响的方式。你也需要注意不同方式之间存在的优势和劣势,以及那些可能会让你受牵绊的大量陷阱(偏差和方差、高拟合度与低拟合度、数据缺失、数据丢失等)。对于数据科学和机器学习所带来的这些方面的挑战,大家可以去Kaggle网站获取很多学习参考,你可发现不同的问题当中存在的细微差别,从而可以让你更好的掌握机器学习的算法。
  5. Software Engineering and System Design
  软件工程和系统设计
  在每天工作结束的时候,机器学习工程师通常产生的成果或者应交付的产品就是一种软件。这种软件其实也是一种小型插件,它可以适用于相对更大型的产品或者服务的生态系统。你需要很好地掌握如何才能让这些彼此不同的小插件协同工作,并与彼此进行流畅的沟通(使用库函数调用、数据接口、数据库查询等)的方法,为了让其他的插件可以依附你的插件进行很好的工作,你也得需要为你的差价建立合适的接口。精心设计的系统可以避免以后可能出现的瓶颈问题,并让你的算法系统满足数据量激增时候的扩展性能。软件工程的最佳的实践经验(需求分析、系统设计、模块化、版本控制、测试以及归档等)对于产能、协作、质量和可维护性而言是不可获取的无价之宝。
  Machine Learning Job Roles――机器学习的工作角色
  由于现在越来越多的公司开始尝试采用新兴技术为自己挖掘更多的利润,于是和机器学习相关的岗位需求也在不断的增加。下面这幅图片为大家展示了和数据分析师相比,对于一名典型的机器学习工程师而言,相对重要的核心技能包含以下内容:
  The Future of Machine Learning――机器学技术的发展展望
  机器学习工程师最让人欲罢不能的特征或许就是这个岗位角色拥有看起来无所不能的广泛适应性。包括教育行业、计算机科学还有更多领域在内的很多行业已经受到了机器学习的积极影响。实际上你会发现没有哪个领域不会应用机器学习技术。
  对于某些行业案例而言,他们对机器学习技术有极其迫切的需求。健康医疗产业就是一个显而易见的例子。机器学习技术已经在健康医疗长夜中的很多重要领域得到了广泛的应用,无论是致力于减少护理差异,还是医学扫描分析,机器学习技术正在潜移默化地为这些领域带来改变。来自纽约大学的数学科学克朗学院和数据科学中心的助理教授David Sontag先生最近发表了关于机器学习技术和健康医疗系统的演讲,在演讲中他讨论了机器学习是如何通过自己的潜力改变了整个医疗产业。
  毫无疑问,这个世界正在发生着快速和戏剧性的转变。对于机器学习工程师的需求正在呈现指数型的增长趋势。世间充满了复杂的挑战,并因此需要更加复杂的系统才可以将这些挑战迎刃而解。而机器学习工程师们就是可以建造这些系统的最佳人选。如果你的未来需要借助机器学习技术获得更好的发展,那么此时此刻就是你迈出脚步掌握相关技能并开发你思维的最佳时机!
  via:化学数据联盟
  “感谢你耐心的看完,鞠躬ing。一直最用心,行业最强音。如果你觉得内容对你有帮助,希望你转载到朋友圈分享给更多的人。传递知识,传递快乐。
  回复对应数字,查看对应系列文章
  1数据可视化 5篇系列文章2推荐系统 5篇系列文章3机器学习 5篇系列文章4随机森林和支持向量机 5篇系列文章5成为数据科学家 5篇系列文章6大数据面试题 5篇系列文章7大数据工具 5篇系列文章8 大数据应用案例 5篇系列文章9新手上路,数据行业入门学习5篇系列文章36大数据是一个专注大数据创业、大数据技术与分析、大数据入门学习的商业新媒体。分享大数据在电商、移动互联网APP、医疗及金融银行等领域的落地应用。
  36大数据是百度大数据首席战略合作媒体。也是WeMedia自媒体联盟成员。
  网站:
  读者QQ群②:投稿邮箱:扫一扫二维码关注我们,订阅每日最新干货
  点击下方“阅读原文”查看更多↓↓↓
  阅读原文
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
36大数据是一个专注大数据、大数据应用案例、数据分析、数据...
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:谈我的算法工程师校招经历 - 简书
谈我的算法工程师校招经历
【中兴+华为+美团+海康威视+百度】校招也算是告一段落了,offer不多但弥足珍贵,感恩终于当了一次运气选手。学弟妹们让写写面经,其实也没啥经验,毕竟不是大神,不过如果有幸做一点小参考还是极好的,顺便给自己留个纪念 ^_^【基本情况】:双985信通系硕士,成绩亮点,项目扣分(太easyT_T),两篇不错的SCIpaper,代码渣,无实习经历。【目标岗位】:算法工程师(机器学习/数据挖掘),找实习各种悲剧之后才明确了岗位目标(实习都投了产品岗=_=)。【工作地点】:上海/西安因为对工作性质/地点的要求有明确的目标性,非此不可,就只针对性的面试了五家对口公司,拿到了4个offer,当然百度跪的不要不要的。。。【一、中兴:算法工程师】6月底投递了一份“蓝剑计划”简历,然后开始了校招漫长的五次面试之旅。1.“蓝剑”初筛一面—技术面40分钟,主要针对项目提问。(1)可能凑巧面试官是做软开的不太明白图像算法,再加上自己第一次面试没掌握节奏,基本上前25分钟都是我不停地在说……以至于面试官最后忍不住开口“我们了解了,了解了,你可不可以讲快一点……”orz……针对项目的质询很细节,小到图像的size、数目反正各种细枝末节都可能会问,如果是自己不熟悉的项目可要好好准备,项目的真实性在中兴的面试中还是很被看重。(2)面试官是做软开的,问了一些C++的基础知识,sizeof啊,多态性啊,熟悉的数据结构(主要问了链表数组和树),各种排序算法的时间复杂度和空间复杂度,在平时项目中处理的数据类型、如何处理异常啊等等…然后现场撸代码(快排)(3)聊聊天,问了问成绩竞赛的事情,特别问我为啥研究生没啥奖没参加竞赛(无语凝噎)2.“蓝剑”初筛二面—综合面我的综合面主要是HR面,没问什么具体的技术问题。主要是针对我的成绩和社团活动展开:为什么成绩这么好?有什么学习经验?担任什么班干部?具体地说明一次活动组织的过程?与同学关系相处?英文介绍为什么来中兴?【小插曲】简历上有一个字写错了,面试官就这个细节问了我性格是否认真严谨的问题…【间奏】两面之后,就开始了一个月的漫长筛选,最终十分有幸地进入了最后的“蓝剑夏令营”大名单,要去深圳撕名额。【蓝剑注意事项】对于明年想去蓝剑的同学,值得注意的是,去之前一定要选好题目!在离开营两天之前,我们收到了赛题,30选一的情况,需要在两天的时间做完。我当时选了感兴趣的难度也比较高的大数据挖掘题目,奋战两天两夜,很详细地做了20多页的PDF报告,事实证明太有用了!工作量大被肯定,同时获得了额外之喜,被出题目的部门看中,多给了一次机会。大家在选题的时候一定要选择能突出表现自己能力的课题,因为蓝剑的面试都是围绕此展开的。3.夏令营一面-无线大数据这个比较凑巧,因为我选择了该部门的题目(本来他们部门没选我),然后在答疑的时候面试官单独拉我出来给了一次面试,主要针对课题。详细地介绍了数据处理与特征分析的过程,数据去重、数据填补、数据清洗、特征分析、特征选择融合、分类器设计等等。很多基本的方法,面试官详细地询问了所设计的数据处理框架以及特征分析的过程。4.夏令营二面-无线前半个小时PPT介绍课题,内容同上。之后和面试官仔细聊了一下特征选择的问题,我介绍了了解的几种基本的特征选择思路(错误率选择、基于熵的选择、类内类间距离的选择);谈谈对大数据的看法;传统的专家系统是否有必要继续保留;数据处理与实际业务的关系;职业规划;兴趣爱好等等。5.夏令营三面-云T前半个小时PPT介绍课题,内容同上。谈项目,详细介绍项目存在的问题;使用的分类器与人脸识别领域分类器的异同;adaboost算法;之后就主要是问一些性格上的问题,缺点,一句话说优势,职业规划。【小插曲】:就会不会去南京和面试官聊的很尴尬…orz…【结果】一周后在家撒欢的时候,收到通知,无线和云部门给了special offer,8月底拿到了第一个offer。特别是收获了一堆小伙伴,甚是感激。【二、华为-无线算法】华为今年的情况大家可能也都了解了,薪资飞起,部门地点尊重个人意愿,不再随机。华为我是彻底当了一次运气选手,很幸运的在面试前就跟无线部门的老师有了一次交流,提前就提交了自己的简历。参加的是七月初的提前批招聘,我在这里也建议大家都尽可能地参加华为的提前招聘,优势会十分的大(更多的名额、选择、SP),特别是需求量少的算法岗位。1.一面—技术面这里就不多细说了,作为一名运气选手,很高兴遇到了伯乐赏识。我的感觉是,一定要在自己的简历上突出优势,特别是在华为的面试中要真实的突出的表现自己的能力特长。缺点没有问题,但亮点一定要够亮,特别是目标special offer的。一面以项目为主,结束后通知临时加了一面总裁面。2.二面-综合面由于华为今年的薪资主要是面试决定的,很高兴遇到了十分聊得来的综面官。首先针对项目十分细致地询问了各种细节,然后就问我如何处理数据中的噪声点、数据清洗算法(正好自己做了一个算法)、如何选择特征等。之后就是一些性格问题:最近在看什么书、对加班怎么看、如果有出国交流的机会会考虑吗,会读博士吗等等。特别是问我拿了什么offer,综面官现场就给我说了一个薪资,让我惊讶又满意,十分愉快地感谢了面试官。【插曲】由于是最后一天下午去的,正巧总裁面的Boss出差了,就临时取消了第三面,第二面的综面官也是一位很牛的21级专家,所以就直接幸运的由这位聊的十分愉快的面试官给我定级和薪资了。【结果】八月底拿到了口头 offer,特别要感谢面试官厚道的又给我多加了2K,太感激了。【三、美团点评-机器学习/数据挖掘算法】9月份校招开始时,已经拿了两大通信公司的SP,不是很虚。没有海投,基本是上海的算法岗位,笔试了七家:阿里、百度、腾讯、网易、美团、京东、360,只拿到了三家的面试机会:京东、美团、百度。京东岗位只在上海面试就放弃了,参加了剩下两家的面试,均为机器学习/数据挖掘岗位,但是两家的面试风格真的是截然不同…美团面试重基础,面试氛围很好,妹子也很多(捂嘴笑),效率高(一天四面)。1.一面-技术面刚自我介绍完就让写代码(最长公共子串),我简直一脸萌比,这咋一言不合就写代码!最后面试官让我讲了讲思路,就开始进入正题。手推LR的损失函数;SVM和感知机的异同;最大熵模型;决策树的特征选择与剪枝;如何处理SVM中的过拟合;SVM中的核函数以及惩罚参数C的选择;信息增益和信息增益比的异同;k-d树的原理,为什么没在项目中使用;手推paper中使用的距离测度公式;熟悉的数据结构;归并排序的时间和空间复杂度;手写归并排序的非递归实现;手写二分查找代码。总体不难,但是很多很重基础。2.二面-技术面二面的面试官最爱笑着说两句话“是这样吗”“还有呢”…简直被那个“还有呢”问的啥都没有了……先讲了讲paper里的算法,然后就问熟悉的分类算法,一直问“还有呢”,最后实在说不粗来了…random forest和GBDT的异同;bagging和boosting算法的区别;手推SVM讲原理;怎么处理过拟合;L0、L1、L2正则化的区别;如何处理异常点;特征怎么选择(基尼系数、信息增益比、fisher准则、PCA);错误率衡量方法;交叉验证的几种方法;问了一个实际问题:根据用户数据对用户喜欢的电影类型进行预测?这个正巧跟我在蓝剑做的项目很相似,我就从数据的获得,数据预处理(数据清洗、特征分析等),分类器设计(为什么不用回归模型)等方面讲了框架和一些具体做法。最后手写代码,二叉排序树建树。3.三面-综合面是个年轻有为的boss,他看我成绩很好,可能又觉得能到三面至少过了前两面技术考察,就没怎么问技术问题。主要聊了聊paper,问了些数据处理全局框架之类的问题。之后我俩就聊了聊为什么我们学校发国奖就不发学费的问题……他说这有点无耻……4.HR面给美团的HR姐姐满赞,漂亮又温柔。主要就问我参加学生会的事情,活动的组织流程,遇到的困难如何解决的;在团队中担任什么样的职务,why;为什么研究生不参加社团活动了;遇到的最大挫折;觉得自己聪明吗;自己加入互联网的优势;为什么选择美团;有别的offer吗;薪资要求。【结果】几天后收到了录用通知书,感觉总体很重基础,毕竟手推公式。美团的氛围以及工作内容我都很喜欢,奈何我要了个批发价…【四、百度-机器学习/数据挖掘算法】百度和美团一天面试,我赶到百度已经迟了一个小时,大家切记一定要提前跟HR商量时间,不然就会像我一样拥有一次这么噩梦般的面试之旅了…1.一面-技术面刚一进面试官房间,他就不太爽,“你面别家是不”“那也不能不来吧”“都不跟HR说”“这可不行”……这事真的怨我,但是没吃饭六点赶过来一天已经面了四面了,我当时在一听这话感觉都窒息了……然后他就开始告诉我,说幸好他年轻,分的人少,不然我都没有机会了(这话确实);问我的项目,问了好久,但是都问的是“jun zhi jing",哪个“均”哪个“质”…然后一个一个敲在电脑上…终于结束了这个漫长的过程,他说“哦…那你这个项目一点参考意义都没有”。直接从简历翻过去了…翻…过…去…我当时就方了特别紧张,然后他说问一下这个paper 算法吧,我讲两句他又说“哦,没意义,算了下一个吧”…………聊了一会基本的分类模型,他说没啥好聊的了,写个代码吧,然后就开始了我面试最悲剧的半个小时…整个半小时,我甚至都忘记了我在写代码,题目是啥,大脑一片空白,旁边一直充斥着他的声音“你会不,我给你说啊,你写不出来一定是过不了啊,不能有bug”…最后我真是写不下去了,跟面试官道了个歉“对不起,我现在写不出来,耽误您时间了”。然后面试官愉快的让我走了,走的时候还说感觉西安学生的代码能力差,我当时那个着急啊,赶紧安抚他“不,您别灰心,是我太差了!!!”……【结果】一面跪,感觉百度现场得撸三四个代码才行。切勿迟到,留个好印象。【五、海康威视-算法】这个正巧班级群里发通知,算法的小型宣讲会免笔试,就屁颠颠过去投了一份简历,感觉面试还是很轻松的,主要是要对口。而且从面完的感觉来看,公司很豪而且做的研究很前沿。1.一面-技术面应该是个部门的负责人,他挑了我的简历,主要是看上了成绩不错和论文。就是围绕着项目和paper来问,问了SVM和决策树算法,然后因为我其实也不在做图像识别的问题,他有点遗憾。一直说我这个项目low,扣分,但是一看见我成绩他又很纠结,最后让我说一个自己最大的优势,因为我的课题体现不出我的能力……然后我默默的说“这个论文很难发…”他就让我去HR面了。2.HR面一贯的套路,项目研究中的问题怎么解决;看什么书;现在觉得需要补充哪些知识,打算怎么补充;遇到的挫折;为什么去上海;薪资等【结果】几天后收到了签约通知,不过自己太蠢,薪资HR面的时候说了13K,感觉HR姐姐有些小惊讶,事后从同学和网上了解到自己要的低了,顿感公司真豪真好。【面试小结】感谢自己能坚持自己的选择,从来没有想过算法招的少就放弃,运气人品爆发的时机也合适。虽然没有实习经历也没有项目经历,但算是靠了一次自己的努力,拿到了满意的offer。有志者事竞成!共勉!^_^哦对了,谢谢老爸老妈,雯纸、小欣欣、大黑哥一直鼓励,还有一起找工作的雨神、冯神能一直交流着,另外能在找工作时认识新的小伙伴也是幸福满满!^_^机器学习&数据挖掘笔记_16(常见面试之机器学习.._图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
机器学习&数据挖掘笔记_16(常见面试之机器学习..
上传于||文档简介
&&机器学习必备
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩10页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢热门推荐:
1 新智元编译1
来源:彭博
译者:刘小芹
  【重要通知:10月18 日世界人工智能大会现场一律凭活动行二维码入场,上午主论坛于08:30 正式开始,现场座位紧张,请提前签到入场。另外,不接受现金购票,分论坛票只有下午可以入场】活动行浏览已经超过 7 万,还有一些已购票付款的公司和机构未换二维码。活动行在大会现场设有咨询席位,但提前换二维码节省签到时间。请团购注册的公司关注,务必提醒参会的同事们手机接收二维码,如果不清晰可以打印出来,现场在签到处换领大会嘉宾胸卡。
  大会地点:国家会议中心(C4 入口)
  会议签到:上午主论坛 07:30-08:30,下午分论坛 13:00-14:00
  会议时间:上午主论坛 08:30-12:00,下午分论坛 14:00-18:00
  【关注世界人工智能大会的好友们,福利来了!】爱奇艺科技频道提供周二上午主论坛的直播(H5地址,各端都可以看):/l_19rr7t1kdn.html
  无法亲临现场的好友们欢迎收藏!
  【新智元导读】彭博社最近推出了一些列大公司面试指南,其中包括Facebook、Uber和高盛等大公司。那么,如果想进入Facebook做一名机器学习工程师,需要具备哪些素质?要多牛才能与Yann LeCun做同事呢?
  职位:软件工程师,机器学习
  招聘负责人:James Everingham,Instagram工程主管
  薪资:$130,000-$145,000
  职位描述:
  构建更智能的系统;检测数据,增强用户体验,编写和实现代码,评估结果。该职位不仅是写代码,而且要做研究。例如,尝试提供更好的个性化搜索结果。
  资历要求:
  最好有博士学位。硕士或学士学位但有相应的经验亦可。
  面试过程
  第一轮:
  15至30分钟面谈,通常由招聘专员通过电话面试。
  第二轮:
  45分钟技术评估,可以现场或远程进行。考查内容包括系统、算法和数据结构、写代码的逻辑、清洁度和速度,以及与技术面试官的互动。面试官的话:“这也是为了面试者的成功,因为这样能让我们了解他们的水平,引导他们进入状态,并给他们公平的面试机会。”
  第三轮:
  通常是针对面试者背景和兴趣的五个左右的提问。面试官主要是工程师,也会有一些技术经理或领导。问题包括编码、设计、团队合作等。面试官的话:“我喜欢问面试者他最棒的一天是哪天,那天具体发生了什么。因为他们已经在技术考查中胜出了,或者他们已经做出一些成就让我们很想录取他了。…这能让我们了解他们的激情是什么,让我们提供能够再次唤起他们的激情的工作类型。我喜欢提的另一个问题是,他们进入这个领域的理由是什么。”在这一轮中,面试者也能对公司有更多的了解。
  评分方式:
  面试官会提交反馈,然后进行小组讨论。被录取者需要参加Facebook的新人训练营,并可以选择他们想进入的团队。面试者也可以在招聘过程中表达对某个团队或产品的兴趣。面试官的话:“我们的招聘过程实际上提供了不只一个职位。面试是为了发现他们是否适合,我们的价值观是否一致,以及他们是否通过技术考核。因为我们有许多开放的职位,面试也是为了找出他们最适合的角色。”
  建议:
  与面试官互动。面试官的话:“我们非常注重团队合作。 所以,那些面试表现很好的人会有这样的态度,不是认为我们在测试他们,而是他们是团队的一分子,就像他们已经得到了工作一样与我们进行互动。”
  了解产品。面试官的话:“面试者对我们的产品有了解,能提出如何改善产品的想法――这很好。”
  确保简历是最新的。面试官的话:“我们不会只浏览一下简历就得出‘噢,就这个人了’。我们会仔细阅读简历,研究它,如果你适合,我们会想为你定制一个职位。因此,简历重要的是要保持最新,要简洁,信息准确,将重点放在你的强项上。很多人喜欢把他们做过的所有事情都放到简历上,以彰显他们做了很多事。但是,更好的方法是专注于你的优势,好的简历专注于深度而不是广度。”
  了解Facebook的使命。面试官的话:“我们公司是使命驱动型的,我们寻找的是想为公司贡献的人。”
  多做练习。面试官的话:“有时人们在白板上写代码会有些紧张,尤其当他们面对的是不认识的人时…练习将思考和说话连接起来,写代码的同时解释你在做什么,为什么那样写。你可以讲错,然后认识到自己的错误并改正。我们宁愿看到你讲错了,而不愿看到你沉默不语。”
  承认自己的弱点。面试官的话:“承认你有不懂的东西。这是加分项。同时也要了解自己的优势。”
  不要让自己陷入困境。面试官的话:“向面试官提问以寻求提示是OK的,要让对话进行下去。”
  附:机器学习面试常见十问
  Q:朴素贝叶斯(naive Bayes)为何如此“naive”?
  A:朴素贝叶斯如此“naive”,是因为它假设一个数据集中的所有特征具有同等的重要性和独立性。在现实世界中这种假设很少成真。
  Q:假设你正在处理一个时间序列数据集,你的上司要求你建一个高精度模型。你先是用了决策树算法,因为你知道它在各种数据类型上都运行得相当好。后来,你尝试了一个时间序列回归模型,并获得比决策树模型更高的准确度。这种情况可能发生吗?为什么?
  A:时间序列数据是线性的,而我们知道决策树算法在检测非线性交互上效果最好。决策树模型未能提供鲁棒预测是因为它在映射线性关系上不像回归模型那样好。因此,这是可能的,由于数据集满足其线性假设,线性回归模型能够提供鲁棒预测。
  Q:你发现你的模型偏置低、方差高,应该使用那些算法来解决?为什么?
  A:当模型的预测值接近实际值时,会出现低偏置。换句话说,低偏置模型足够灵活,能模仿训练数据的分布。但灵活的模型缺乏泛化能力。这意味着,当用未知数据测试这个模型时,得出的结果会不如人意。在这种情况下,我们可以使用bagging算法(如随机森林)来降低方差。bagging算法能将数据集切分为用重复随机抽样的子数据集。然后,使用单个学习算法和这些子数据集生成一组新的模型,使用投票(分类)或平均(回归)来组合模型预测。
  Q:KNN和kmeans聚类有什么区别?
  A:不要被它们名字中的“k”误导。这两种算法间的根本区别是,kmeans本质上是无监督的,而KNN本质上是有监督的。Kmeans是一种聚类算法,而KNN是分类(或回归)算法。
  Q:在处理数据集时,如何选择重要变量?
  A:以下是可选择的方法:
在选择重要变量前删除相关变量
使用线性回归并根据p值选择变量
使用前向选择、后向选择、逐步筛选
使用随机森林、Xgboost并绘制变量重要性图
使用套索回归
测量可得的一组特征的信息增益,并选择n值高的特征。
  Q:都是基于树的算法,随机森林和梯度boosting算法(GBM)有什么区别?
  A:根本的区别是,随机森林使用bagging技术做预测,GBM使用boosting技术进行预测。Bagging技术中,使用随机抽样将数据集分成n个样本,然后使用单个学习算法对所有样本建模,最后使用投票或回归来对得到的预测结果进行组合。Bagging是平行进行的。
  Boosting(提升)则是在第一轮预测后,算法将错误分类的预测权重提高,使它们在下一轮预测中得到校正。这个过程会重复进行,知道达到标准精度才停止。
  随机森林主要通过降低方差来提高模型精度,随机森林的树相互间没有相关性,能尽可能的降低方差。另一方面,GBM提高精度的同时可能同时降低模型的偏置和方差。
  Q:假设你在处理分类问题,为了验证,你从训练数据集中随机抽样出子集用于训练和验证。因为验证得到的准确度很高,你确信你的模型在未见数据中也能运作得很好。但是,模型的测试精度非常低。是什么地方出了错?
  A:在分类问题中,应该使用分层抽样而不是随机抽样。随机抽样没有考虑目标类别的比例。而且,分层抽样也有助于保持目标变量在样本中的分布和数据集中的分布一致。
  Q:假设我是个5岁小孩,请向我解释机器学习。
  A:机器学习就像婴儿学走路。当他们跌倒时,他们会(无意识地)认识到,他们的腿应该直着,而不是弯曲着。下一次他们再跌倒,会感到痛苦,会哭,但这次他们又学会了“不要再像这样子站”。为了成功学会走路,他们甚至扶着门或墙壁或其它东西,以帮助他们不跌倒。这就是机器如何从环境中发展出直觉的工作原理。
  Q:机器学习算法有那么多,给定一个数据集,你怎样决定使用哪个算法?
  A:选择哪个算法完全取决于数据的类型。如果给定的是一个线性数据集,那么线性回归是最好的算法;如果数据集是图像或音频,那么就选择神经网络;如果数据集包括非线性相互作用,则应该选择boosting或bagging算法;如果任务需求是建一个可以部署的模型,那么应该使用回归或决策树模型(易于解释),而不是像SVM、GBM这些黑盒算法。总之,没有一个主算法能适用所有情况。
  Q:机器学习中什么时候需要正则化?
  A:当模型显示出过拟合/欠拟合时,就需要正则化。正则化引入了成本项,用于为目标函数带来更多特征。正则化试图将许多变量的系数变为零,从而减少成本项。这有助于降低模型复杂度,使模型的泛化能力更好。
  豪华嘉宾阵容,共飨 AI 盛宴
  7 大院长齐聚新智元智库院长圆桌论坛
  2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”,重量级研究院院长8仙过海,带来最前沿的AI研究动态、剖析技术发展趋势。
  八位人工智能界“高手”现场过招,思想的激烈碰撞会给目前的人工智能发展带来哪些洞见?八位院长对行业的发展会有哪些前瞻揭秘?10月18日下午,2016 世界人工智能大会技术论坛,答案将逐层揭晓。
  新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲工程院院长刘震、IBM中国研究院副院长邵凌、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。
  2016世界人工智能大会技术论坛议程
  扫描二维码购票:
  购票链接:/go/aiworld2016
  也可点击‘阅读原文’直接购票
  票务联系 132&
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
知名IT评论人,曾就职于多家知名IT企业,现是科幻星系创建人
未来在这里发声。
新媒体的实践者、研究者和批判者。
立足终端领域,静观科技变化。深入思考,简单陈述。
智能硬件领域第一自媒体。

我要回帖

 

随机推荐