《Spark编程基础及项目实践》试卷及答案2套.pdf

【Spark编程基础及项目实践】试卷涉及的知识点涵盖了Spark的核心概念、大数据处理、Scala语言基础以及Spark的部署和运行模式。以下是对这些知识点的详细解释：1. **大数据的特征**：大数据通常具有Volume（大量）、Variety（多样）、Velocity（高速）和Variance（变异性）四大特征。Volume指的是数据的规模；Variety指的是数据类型和来源的多样性；Velocity指的是数据产生的速度；Variance则是指数据的复杂性和不确定性。2. **Scala List定义**：Scala中，List可以通过::运算符构建，如选项A、B和D所示。C选项的错误在于使用了List()而不是::运算符，并且将字符串直接放入了列表。3. **图的创建方法**：Spark GraphX库提供了创建图的方法，如fromEdges、fromVertices和fromEdgeTuples，但不包括fromVertexs（应该是fromVertices）。4. **函数定义**：在Scala中，函数定义可以是带有花括号的def，如A选项；使用=>的简化形式，如B和D选项；或者使用柯里化，如C选项。B选项的错误在于使用了return，Scala中不需要显式使用return返回结果。5. **Spark内存管理**：Execution Memory是Spark堆内内存的一部分，用于执行操作，例如Shuffle。6. **Spark部署模式**：Spark可以部署为单机模式、单机伪分布式、集群分布式（完全分布式），但没有列分布式这一说法。7. **Spark Streaming输入数据流**：Kafka、Twitter和TCP套接字都是Spark Streaming常见的输入源，而Openstack不是。8. **滑动窗口参数**：滑动窗口操作的关键参数包括批处理间隔、窗口间隔和滑动间隔，输入流间隔不是滑动窗口参数。9. **Scala变量赋值**：Scala中，val是不可重新赋值的，var可以。因此，A和D选项错误，C选项错误在于将整型变量赋值为字符串。10. **Spark服务端口**：Spark默认使用的端口包括8080（Web UI）、4040（Spark History Server UI），18080可能不是Spark自带的服务端口。11. **广播变量**：广播变量在Spark中是只读的，存储在每个节点上，但不存储在磁盘或HDFS。12. **Master的ElectedLeader事件**：该事件后，Master会通知Worker并注册Application。13. **图操作**：GraphX提供的操作不包括图划分操作。14. **MLlib特征选择**：KafSelector不是MLlib中的特征选择方法，可能是指的VectorSlicer、ChiSqSelector或Rformula。15. **机器学习模型**：结构化学习模型不是机器学习的典型分类，通常机器学习模型分为回归模型、分类模型和结构化统计模型。填空题部分：1. Spark的基本计算单元是**RDD（弹性分布式数据集）**。2. Scala运行在**JVM（Java虚拟机）**之上。3. 要对特征进行数值化和索引化，可以使用**OneHotEncoder**或**StringIndexer**方法。4. 默认的存储级别是**MEMORY_ONLY**。5. Spark运行架构中，**SparkContext（驱动程序）**负责任务控制。6. Task是在**Executor**上运行的工作单元。7. Scala

云奕文章网

《Spark编程基础及项目实践》试卷及答案2套.pdf

相关推荐：