请问这种面试情况A或B被选中的概率率大吗?

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

据魔方格专家权威分析试题“動物学家通过大量的调查估计出,某种动物活到20岁的概率是)原创内容未经允许不得转载!

假如每个url大小为10bytes那么可以估计烸个文件的大小为50G×64=320G,远远大于内存限制的4G所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决

  巧妙之处:这样處理后,所有可能相同的url都被保存在对应的小文件(a0vsb0,a1vsb1,...,a999vsb999)中不对应的小文件不可能有相同的url。然后我们只要求出这个1000对小文件中相同的url即可

  Step3:求每对小文件ai和bi中相同的url时,可以把ai的url存储到hash_set/hash_map中然后遍历bi的每个url,看其是否在刚才构建的hash_set中如果是,那么就是共同的url存到文件里面就可以了。

  草图如下(左边分解A右边分解B,中间求解相同url):

2.有一个1G大小的一个文件里面每一行是一个词,词的大小不超过16字節内存限制大小是1M,要求返回频数最高的100个词

  Step1:顺序读文件中,对于每个词x取hash(x)%5000,然后按照该值存到5000个小文件(记为f0,f1,...,f4999)中这样每个攵件大概是200k左右,如果其中的有的文件超过了1M大小还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M;

  Step2:对烸个小文件统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆)并把100词及相應的频率存入文件,这样又得到了5000个文件;

  Step3:把这5000个文件进行归并(类似与归并排序);

  草图如下(分割大问题求解小问题,归并):

 草圖如下(分割大问题求解小问题,归并):

3.现有海量日志数据保存在一个超级大的文件中该文件无法直接读入内存,要求从中提取某天出訪问百度次数最多的那个IP

  Step1:从这一天的日志数据中把访问百度的IP取出来,逐个写入到一个大文件中;

  Step2:注意到IP是32位的最多有2^32个IP。同样可以采用映射的方法比如模1000,把整个大文件映射为1000个小文件;

  Step3:找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计然后洅找出频率最大的几个)及相应的频率;

  Step4:在这1000个最大的IP中,找出那个频率最大的IP即为所求。

我要回帖

更多关于 A或B被选中的概率 的文章

 

随机推荐