近年来大数据技术人才层出不穷,但无论如何求职者只有经过层层面试才能获得施展才华的机会,而面试的首关就是一套技术面试题,所以中公优就业小编整理了一些常见的大数据面试题,希望对大家有帮助。
1、举一个简单的例子说明mapreduce是怎么来运行的 ?
2、secondarynamenode的主要职责是什么?简述其工作机制
3、Sqoop用起来感觉怎样?
4、kafka 数据高可用的原理是什么
5、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
6、100w 个数中找出最大的 100 个数。
7、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
8、已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。
9、有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。 请用 5 分钟时间,找出重复出现最多的前 10 条。
10、每个文件至少有1000万行,请用程序完成以下工作,
1)每个文件的个子的IP
2)出现在b.text而没有出现在a.text的IP
3)每个user出现的次数以及每个user对应的IP的个数
相关推荐: