大数据行业热度有增无减,下面是小编整理的一些大数据面试题,希望能够对大家有所帮助。
1、怎么在海量数据中找出重复次数最多的一个?
2、上千万或上亿数据(有重复),统计其中出现次数最多的钱 N 个数据。
3、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前 10 个词,给出思想,给出时间复杂度分析。
4、100w 个数中找出最大的 100 个数。
5、有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。 请用 5 分钟时间,找出重复出现最多的前 10 条。
6. 下面哪个程序负责 HDFS 数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
7. HDfS 中的 block 默认保存几份?
a)3 份
b)2 份
c)1 份
d)不确定
8. 下列哪个程序通常与 NameNode 在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
9. Hadoop 作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting
10. HDFS 默认 Block Size
a)32MB
b)64MB
c)128MB
相关推荐: