大数据工作者应聘时,面试是一道躲不过的槛,所以优就业小编收集了一些2018常见的大数据面试题,希望可以帮到准备或者正在参加大数据面试的朋友们。
1、下列哪个程序通常与 NameNode 在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracke
2、下列哪项通常是集群的最主要瓶颈:
a)CPU
b)网络
c)磁盘IO
d)内存
3、下列哪项可以作为集群的管理?
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
4、Cloudera 提供哪几种安装 CDH 的方法?
a)Cloudera manager
b)Tarball
c)Yum
d)Rpm
5、下面哪个程序负责 HDFS 数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
6、一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议。
7、如果要存储海量的小文件(大小都是几百K~几M),请简述自己的设计方案。
8、kafka topic为什么设定8个分区?
9、为什么要在hbase中创建一个元数据表保存每个表的字段和主键,删除的时候要查一遍而那upsert的时候也要有主键,为什么不用?
10、有大量的英文文献,需要进行统计
1;统计出现次数前一百的所有单词
2:统计出现次数为10-20次,20-30次的所有单词。
相关推荐: