【Spark编程基础及项目实践】试卷涉及的知识点涵盖了Spark的核心概念、大数据处理、Scala语言基础以及Spark的部署和运行模式。以下是对这些知识点的详细解释:1. **大数据的特征**:大数据通常具有Volume(大量)、Variety(多样)、Velocity(高速)和Variance(变异性)四大特征。Volume指的是数据的规模;Variety指的是数据类型和来源的多样性;Velocity指的是数据产生的速度;Variance则是指数据的复杂性和不确定性。2. **Scala List定义**:Scala中,List可以通过::运算符构建,如选项A、B和D所示。C选项的错误在于使用了List()而不是::运算符,并且将字符串直接放入了列表。3. **图的创建方法**:Spark GraphX库提供了创建图的方法,如fromEdges、fromVertices和fromEdgeTuples,但不包括fromVertexs(应该是fromVertices)。4. **函数定义**:在Scala中,函数定义可以是带有花括号的def,如A选项;使用=>的简化形式,如B和D选项;或者使用柯里化,如C选项。B选项的错误在于使用了return,Scala中不需要显式使用return返回结果。5. **Spark内存管理**:Execution Memory是Spark堆内内存的一部分,用于执行操作,例如Shuffle。6. **Spark部署模式**:Spark可以部署为单机模式、单机伪分布式、集群分布式(完全分布式),但没有列分布式这一说法。7. **Spark Streaming输入数据流**:Kafka、Twitter和TCP套接字都是Spark Streaming常见的输入源,而Openstack不是。8. **滑动窗口参数**:滑动窗口操作的关键参数包括批处理间隔、窗口间隔和滑动间隔,输入流间隔不是滑动窗口参数。9. **Scala变量赋值**:Scala中,val是不可重新赋值的,var可以。因此,A和D选项错误,C选项错误在于将整型变量赋值为字符串。10. **Spark服务端口**:Spark默认使用的端口包括8080(Web UI)、4040(Spark History Server UI),18080可能不是Spark自带的服务端口。11. **广播变量**:广播变量在Spark中是只读的,存储在每个节点上,但不存储在磁盘或HDFS。12. **Master的ElectedLeader事件**:该事件后,Master会通知Worker并注册Application。13. **图操作**:GraphX提供的操作不包括图划分操作。14. **MLlib特征选择**:KafSelector不是MLlib中的特征选择方法,可能是指的VectorSlicer、ChiSqSelector或Rformula。15. **机器学习模型**:结构化学习模型不是机器学习的典型分类,通常机器学习模型分为回归模型、分类模型和结构化统计模型。填空题部分:1. Spark的基本计算单元是**RDD(弹性分布式数据集)**。2. Scala运行在**JVM(Java虚拟机)**之上。3. 要对特征进行数值化和索引化,可以使用**OneHotEncoder**或**StringIndexer**方法。4. 默认的存储级别是**MEMORY_ONLY**。5. Spark运行架构中,**SparkContext(驱动程序)**负责任务控制。6. Task是在**Executor**上运行的工作单元。7. Scala
首页 >
spark期末考试题及答案 > 《Spark编程基础及项目实践》试卷及答案2套.pdf