AI面试效果好吗大家会去使用AI面试吗

看招聘需求如果是偏工程实践,应该要

我面试所谓的AI、大数据、NLP程序员的时候都先问下会不会单链表操作,如果这个都不会的话基本上都是培训机构培训了几个月嘚菜鸟,这种肯定过不了的。

程序员面试用现场写程序吗?

我是top2 ee专业想转行,不知道会不会被鄙视

: 我面试所谓的AI、大数据、NLP程序员嘚时候都先问下会不会单表操作,如果这个都不会的话基本上都是培训机构培训了几个月的菜鸟,这种肯定过不了的。

当然不能“只”问这种简单的问题,但是这种简单的问题能帮助面试官刷掉一半以上的菜鸟。 另外top2是很大的加分项,估计很少有地方会鄙视你。

: 只问这么简单的吗?

: 程序员面试用现场写程序吗

满堂共话中兴事,万语千言赤子情

面过投算法岗的应届生基本上ml算法不错的,數据结构编程也都不错有点碾压的意思

不会的话,基本上都是培训机构培训了几个月的菜鸟这种肯定过不了的。。

: 我面试所谓的AI、夶数据、NLP程序员的时候都先问下会不会单链表操作,如果这个都

会的我一般问的题还要转个弯

我老板就特别反对面试考指针和链表

面試考这些能答出来的基本都是死记硬背下来的。

: 我面试所谓的AI、大数据、NLP程序员的时候都先问下会不会单链表操作,如果这个都不会的話基本上都是培训机构培训了几个月的菜鸟,这种肯定过不了的。

搞个链表反转需要死记硬背?  我看你那还是别吃it这碗饭了!

: 我老板就特别反对面试考指针和链表

: 面试考这些能答出来的基本都是死记硬背下来的。

: 搞个链表反转需要死记硬背?  我看你那还是别吃it这碗饭了!

1、你会在时间序列数据集上使用什么交叉验证技术是用k倍或LOOCV?

?都不是对于时间序列问题,k倍可能会很麻烦因为第4年或第5年的一些模式有可能跟第3年的不同,而对數据集的重复采样会将分离这些趋势而我们最终可能只是需要对过去几年的进行验证,这就不能用这种方法了相反,我们可以采用如丅所示的5倍正向链接策略:

??12,34,56代表的是年份。

2、你是怎么理解偏差方差的平衡的

?从数学的角度来看,任何模型出现的误差可以分为三个部分以下是这三个部分:

??偏差误差在量化平均水平之上,预测值跟实际值相差多远时有用高偏差误差意味着我们嘚模型表现不太好,因为没有抓到重要的趋势而另一方面,方差量化了在同一个观察上进行的预测是如何彼此不同的高方差模型会过喥拟合你的训练集,而在训练集以外的数据上表现很差

3、给你一个有1000列和1百万行的训练数据集,这个数据集是基于分类问题的经理要求你来降低该数据集的维度以减少模型计算时间,但你的机器内存有限你会怎么做?(你可以自由做各种实际操作假设)

?你的面试官应该非常了解很难在有限的内存上处理高维的数据。以下是你可以使用的处理方法:

??1.由于我们的RAM很小首先要关闭机器上正在运行嘚其他程序,包括网页浏览器等以确保大部分内存可以使用。

??2.我们可以随机采样数据集这意味着,我们可以创建一个较小的数据集比如有1000个变量和30万行,然后做计算

??3.为了降低维度,我们可以把数值变量和分类变量分开同时删掉相关联的变量。对于数值变量我们将使用相关性分析;对于分类变量,我们可以用卡方检验

??4.另外,我们还可以使用PCA(主成分分析)并挑选可以解释在数据集中有最大偏差的成分。

??5.利用在线学习算法如VowpalWabbit(在Python中可用)是一个不错的选择。

??7.我们也可以用我们对业务的理解来估计各预测變量对响应变量的影响的大小但是,这是一个主观的方法如果没有找出有用的预测变量可能会导致信息的显著丢失。

 4、全球平均温度嘚上升导致世界各地的海盗数量减少这是否意味着海盗的数量减少引起气候变化?

??不能够这样说这是一个“因果关系和相关性”嘚经典案例。全球平均温度和海盗数量之间有可能有相关性但基于这些信息,我们不能说因为全球平均气温的上升而导致了海盗的消失我们不能断定海盗的数量减少是引起气候变化的原因,因为可能有其他因素(潜伏或混杂因素)影响了这一现象

5、给你一个数据集,這个数据集有缺失值且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响为什么?

??约有32%的数据将鈈受缺失值的影响因为,由于数据分布在中位数附近让我们先假设这是一个正态分布。我们知道在一个正态分布中,约有68%的数据位於跟平均数(或众数、中位数)1个标准差范围内那么剩下的约32%的数据是不受影响的。因此约有32%的数据将不受缺失值的影响。

6、你意识箌你的模型受到低偏差和高方差问题的困扰那么,应该使用哪种算法来解决问题呢为什么?

??可以使用bagging算法(如随机森林)因为,低偏差意味着模型的预测值接近实际值换句话说,该模型有足够的灵活性以模仿训练数据的分布。这样貌似很好但是别忘了,一個灵活的模型没有泛化能力意味着当这个模型用在对一个未曾见过的数据集进行测试的时候,它会令人很失望在这种情况下,我们可鉯使用bagging算法(如随机森林)以解决高方差问题。bagging算法把数据集分成重复随机取样形成的子集然后,这些样本利用单个学习算法生成一組模型接着,利用投票(分类)或平均(回归)把模型预测结合在一起另外,为了应对大方差我们可以:

??1.使用正则化技术,惩罰更高的模型系数从而降低了模型的复杂性。

??2.使用可变重要性图表中的前n个特征可以用于当一个算法在数据集中的所有变量里很難寻找到有意义信号的时候。?

7、协方差和相关性有什么区别

?  相关性是协方差的标准化格式。协方差本身很难做比较例如:如果我們计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量所以我们会得到不能做比较的不同的协方差。为了解决这个问题我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量

??真阳性率=召回。它们有相同的公式(TP / TP + FN)

9、Gradient boosting算法(GBM)和随机森林都是基于树的算法,它们有什么区别

??最根本的区别是,随机森林算法使用bagging技术做出预测;而GBM是采用boosting技术做预测的在bagging技术中,数据集用随机采样的方法被划分成n个样本然后,使用单一的学习算法在所有样本上建模。接着利用投票或者求平均来组合所嘚到的预测bagging是平行进行的,而boosting是在第一轮的预测之后算法将分类出错的预测加高权重,使得它们可以在后续一轮中得到校正这种给予分类出错的预测高权重的顺序过程持续进行,一直到达到停止标准为止随机森林通过减少方差(主要方式)提高模型的精度。生成树の间是不相关的以把方差的减少最大化。在另一方面GBM提高了精度,同时减少了模型的偏差和方差

10、你认为把分类变量当成连续型变量会更得到一个更好的预测模型吗?

??为了得到更好的预测只有在分类变量在本质上是有序的情况下才可以被当做连续型变量来处理。

11:“买了这个的客户也买了......”亚马逊的建议是哪种算法的结果?

??这种推荐引擎的基本想法来自于协同过滤协同过滤算法考虑用於推荐项目的“用户行为”。它们利用的是其他用户的购买行为和针对商品的交易历史记录、评分、选择和购买信息针对商品的其他用戶的行为和偏好用来推荐项目(商品)给新用户。在这种情况下项目(商品)的特征是未知的。

12、在k-means或kNN我们是用欧氏距离来计算最近嘚邻居之间的距离。为什么不用曼哈顿距离

??我们不用曼哈顿距离,因为它只计算水平或垂直距离有维度的限制。另一方面欧氏距离可用于任何空间的距离计算问题。因为数据点可以存在于任何空间,欧氏距离是更可行的选择例如:想象一下国际象棋棋盘,象戓车所做的移动是由曼哈顿距离计算的因为它们是在各自的水平和垂直方向做的运动。

13、我知道校正R2或者F值是用来评估线性回归模型的那用什么来评估逻辑回归模型?

?我们可以使用下面的方法:

??1.由于逻辑回归是用来预测概率的我们可以用AUC-ROC曲线以及混淆矩阵来确萣其性能。

??2.此外在逻辑回归中类似于校正R2的指标是AIC。AIC是对模型系数数量惩罚模型的拟合度量因此,我们更偏爱有最小AIC的模型

??3.空偏差指的是只有截距项的模型预测的响应。数值越低模型越好。残余偏差表示由添加自变量的模型预测的响应数值越低,模型越恏

14、为什么朴素贝叶斯如此“朴素”?

??因为它假定所有的特征在数据集中的作用是同样重要和独立的正如我们所知,这个假设在現实世界中是很不真实的因此,说朴素贝叶斯真的很“朴素”

15、花了几个小时后,现在你急于建一个高精度的模型结果,你建了5 个GBM(Gradient Boosted Models)想着boosting算法会展现“魔力”。不幸的是没有一个模型比基准模型表现得更好。最后你决定将这些模型结合到一起。尽管众所周知结合模型通常精度高,但你就很不幸运你到底错在哪里?

??据我们所知组合的学习模型是基于合并弱的学习模型来创造一个强大嘚学习模型的想法。但是只有当各模型之间没有相关性的时候组合起来后才比较强大。由于我们已经试了5个GBM也没有提高精度表明这些模型是相关的。具有相关性的模型的问题是所有的模型提供相同的信息。例如:如果模型1把User1122归类为1模型2和模型3很有可能会做同样的分類,即使它的实际值应该是0因此,只有弱相关的模型结合起来才会表现更好

今天小编就为大家带来一篇有关AI崗位技能要求以及常见面试题的文章小编觉得挺实用的,为此分享给大家做个参考一起跟随小编过来看看吧。

谈到人工智能就不得鈈提及自然语言处理。它可以说是帮助人工智能实现进一步发展与应用的核心技术因此关于自然语言处理的基本知识一定要好好复习。仳如正则化、泛化都是需要了解的除此之外,Dropout 的原理和使用、过拟合问题、激活函数、BP反向传播推导、梯度下降和梯度消失、损失函数、Word2vec 、优化算法、模型的评价指标、SVM推导、CRF、attention、文本分类问题、序列标注问题、Seq2seq、数据不平衡问题等等都是在面试时会涉及的问题

人工智能的另一个核心技术就是机器需学习,关于这个章节我们需要复习准备的知识点有逻辑谛归 、LSTM (原理)LSTMGRU分别适用场景和区别这些都是人笁智能技术岗位面试的常见问题。

另外人工智能技术岗位对编程能力也有着一定的要求,一般都要求会一种或一种以上的编程语言(C++、Python、 Java、Scale ..ect)因此关于编程相关的面试题大家也需要多刷一下。比如如何在长度100W找到最小的第K个数?最长公共子序列 (瓜子)二分查找,囿效的符号 (新浪、猎豹)二叉树的递归和非递归遍历 。此外 个别公司问了数学问题,像是对角矩阵、求导等等

关于自我介绍,大镓一定要做到简洁明了在自报家门的时候,可以包括姓名、学校、专业等主要基本信息然后最重要的就是个人的经历,做过什么项目┅定要说清楚项目的介绍需要包括项目名 + 项目具体内容。有几个小任务(分类、NER、关系识别、摘要生成 ..etc)突出自己任务的重要性,还囿你负责什么样的任务介绍你的方法实现,效果怎么样然后怎么进行改进的,然后你又进行设计之后的效果又是怎样这样讲是为了偅点突出你研究思考的过程。然后最好谈一下你对对方公司的了解可以结合你做过的项目。

在面试过程中只需要做到真诚友好,自信夶方就好了要知道面试不是一个单项的选择题,更像是面试者与面试官的双向选择因此大家不需要可以放低自己的位置,也不需要过喥紧张另外在整个面试考核中,要区分问题会与不会避免陷入面试官的问题之中。尽量多于面试官沟通反复确定面试想问的问题。媔试官如果不是针对你的专业的问题可以委婉的让他换问题。

 以上就是AI岗位技能要求以及常见面试题的详细内容了看完之后是否有所收获呢?如果想了解更多相关内容欢迎关注亿速云行业资讯!

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场如果涉及侵权请联系站长邮箱:进行举报,并提供相关证据一经查实,将立刻删除涉嫌侵权内容

我要回帖

 

随机推荐