优就业2018七夕活动
400-650-7353
首页 > IT就业指南 > 面试题 > 【大数据面试题】hadoop的优化问题

【大数据面试题】hadoop的优化问题

2018-07-13 13:57:27 来源:互联网 手机端入口

随着云时代的到来,大数据相关岗位的需求量也越来越大,为了更好的让大数据人找到自己理想的工作,下面优就业给大家分享一道经典的大数据面试题,欢迎阅读。

hadoop的优化

1)优化的思路可以从配置文件和系统以及代码的设计思路来优化

2)配置文件的优化:调节适当的参数,在调参数时要进行测试

3)代码的优化:combiner的个数尽量与reduce的个数相同,数据的类型保持一致,可以减少拆包与封包的进度

4)系统的优化:可以设置linux系统打开最大的文件数预计网络的带宽MTU的配置

5)为 job 添加一个 Combiner,可以大大的减少shuffer阶段的maoTask拷贝过来给远程的 reduce task的数据量,一般而言combiner与reduce相同。

6)在开发中尽量使用stringBuffer而不是string,string的模式是read-only的,如果对它进行修改,会产生临时的对象,二stringBuffer是可修改的,不会产生临时对象。

7)修改一下配置:以下是修改 mapred-site.xml 文件

【大数据面试题】hadoop的优化问题

a、修改最大槽位数:槽位数是在各个 tasktracker 上的 mapred-site.xml 上设置的,默认都是 2

mapred.tasktracker.map.tasks.maximum2

mapred.tasktracker.reduce.tasks.maximum2

b、调整心跳间隔:集群规模小于 300 时,心跳间隔为 300 毫秒

mapreduce.jobtracker.heartbeat.interval.min 心跳时间

mapred.heartbeats.in.second 集群每增加多少节点,时间增加下面的值

mapreduce.jobtracker.heartbeat.scaling.factor 集群每增加上面的个数,心跳增多少

c、启动带外心跳

mapreduce.tasktracker.outofband.heartbeat 默认是 false

d、配置多块磁盘

mapreduce.local.dir

e、配置 RPC hander 数目

mapred.job.tracker.handler.count 默认是 10,可以改成 50,根据机器的能力

f、配置 HTTP 线程数目

tasktracker.http.threads 默认是 40,可以改成 100 根据机器的能力

g、选择合适的压缩方式,以 snappy 为例:

mapred.compress.map.output

true

mapred.map.output.compression.codec

org.apache.hadoop.io.compress.SnappyCodec

相关推荐:

【大数据培训教程】把握时代风口,挑战大数据高薪

【大数据培训班】大数据课程更新迭代,师资匠心研造

北京大数据培训怎么样?北京大数据培训多少钱?

免责声明:本文来源于网络,由网友提供或网络搜集,仅供个人交流学习参考使用,不涉及商业盈利目的。如有版权问题,请联系本站管理员予以更改或删除。谢谢合作!

关键词: 大数据面试题

相关推荐

 
 
咨询中心
优就业微信扫一扫
微信扫一扫

400-650-7353

加入官方微博