【大数据面试题】10道常见的大数据面试题(二)

来源:互联网

2018-11-08 14:13:28

大数据工作者应聘时,面试是一道躲不过的槛,所以优就业小编收集了一些2018常见的大数据面试题,希望可以帮到准备或者正在参加大数据面试的朋友们。

1、下列哪个程序通常与 NameNode 在一个节点启动?

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracke

2、下列哪项通常是集群的最主要瓶颈:

a)CPU

b)网络

c)磁盘IO

d)内存

3、下列哪项可以作为集群的管理?

a)Puppet

b)Pdsh

c)Cloudera Manager

d)Zookeeper

【大数据面试题】10道常见的大数据面试题(二)

4、Cloudera 提供哪几种安装 CDH 的方法?

a)Cloudera manager

b)Tarball

c)Yum

d)Rpm

5、下面哪个程序负责 HDFS 数据存储。

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

6、一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议。

7、如果要存储海量的小文件(大小都是几百K~几M),请简述自己的设计方案。

8、kafka topic为什么设定8个分区?

9、为什么要在hbase中创建一个元数据表保存每个表的字段和主键,删除的时候要查一遍而那upsert的时候也要有主键,为什么不用?

10、有大量的英文文献,需要进行统计

1;统计出现次数前一百的所有单词

2:统计出现次数为10-20次,20-30次的所有单词。

相关推荐:

【大数据面试题】10道常见的大数据面试题(一)

【大数据培训教程】把握时代风口,做大数据架构师

THE END  

声明:本站稿件版权均属中公教育优就业所有,未经许可不得擅自转载。

领取零基础自学IT资源

涉及方向有Java、Web前端、UI设计、软件测试、python等科目,内容包含学习路线、视频、源码等

点击申请领取资料

点击查看资料详情 

收起 


 相关推荐

问题解答专区
返回顶部