大数据基础考试复习（考试前不停更）

文章目录小题：选择：判断：填空：大题一、简答题1、Hadoop 生态及各部分的作用2、HDFS的实现目标3、FsImage和EditLog的过程4、HDFS读数据的过程5、HBase Region的定位方式6、简述Map函数和Reduce函数的功能7、简述Map端和Reduce端的shuffle过程Map端Reduce端 8、Hadoop1.0的局限和不足9、MapReduce1.0的缺陷——> 导致Yarn的出现10、ApplicationMaster的主要功能：11、Yarn的优势二、实验题三、综合程序题

小题：选择： HDFS的局限性不适合低延迟的数据访问 HBase 更加适合无法高效存储大量小文件不支持多用户写入及任意修改文件 HDFS体系结构的局限性命名空间的限制性能的瓶颈隔离问题集群的可用性 Hadoop1.0的局限与不足抽象层次低表达能力有限复杂的分布式编程工作高度抽象为MapReduce两个函数，在降低开发复杂度的同时，也带来表达能力有限的问题，实际生成环境中的一些应用是无法用简单的Map和Reduce 来完成的开发者需要自己管理作业之间的依赖关系实际生产中需要多个作业协作才能顺利解决一些问题，这些作业之间往往存在复杂的依赖关系，但是MapReduce 本身没有对依赖关系进行有效管理难以看到程序的整体逻辑用户的实际处理逻辑都在两个函数中，没有更高层次的抽象执行迭代操作效率低每次处理都必须经过Map和Reduce 的数据读取和写入的过程，效率低下资源浪费 Reduce 任务必须等到所有的Map任务都完成才能继续实时性差只适合处理离线批处理程序，无法支持交互式的数据处理 HDFS联邦相对于HDFS1.0的优势HDFS集群可扩展性每个名称节点分管一部分目录，使得一个集群可以扩展到

云奕文章网

大数据基础考试复习（考试前不停更）

相关推荐：