导航菜单
首页 >  数据科学与大数据技术研究生考什么  > 大数据复试面试问题总结(一)

大数据复试面试问题总结(一)

前沿技术的相关知识--------加油!!!搏一搏

大数据的特征?

IBM 提出大数据具有 5V 特点,分别为:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),下面具体说明此 5V 特点。

Volume:巨大的数据量,采集、存储和计算的量都非常大。大数据的起始计量单位至少是 PB(1000TB)、EB(100万TB)或ZB(10亿TB)。

Velocity:因为要保证数据的时效性,数据增长速度和处理速度必须要迅速。比如搜索引擎要求几分钟前的新闻都能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。

Value:数据价值密度相对较低。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低。那么如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

Veracity:数据的准确性和可信赖度,即为数据的质量。

大数据有哪些应用?

医疗大数据。金融大数据、交通大数据、教育大数据、商业大数据基于大数据应用的行业实例数不胜数,并且都为各个行业带来了可观的效益,甚至改善了人们的生活水平。随着大数据的应用越来越广泛,应用的行业也越来越多,我们每日都可以看到大数据的一些新颖的应用,从而帮助人们从中获取到真正有用的价值。

云计算与大数据是什么关系?

云计算为大数据提供了有力的工具和途径, 大数据为云计算提供了有价值的用武之地。

云计算是大数据分析与处理的一种重要方法,云计算强调的是计算,而大数据则是计算的对象。

如果数据是财富,那么大数据就是宝藏,云计算就是挖掘和利用宝藏的利器。

云计算以数据为中心,以虚拟化技术为手段来整合服务器、存储、网络、应用等在内的各种资源,形成资源池并实现对物理设备集中管理、动态调配和按需使用。

借助云计算,可以实现对大数据的统一管理高效流通和实时分析,挖掘大数据的价值,发挥大数据的意义。

云计算环境成为大数据处理平台

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

大数据和人工智能有什么关系?

大数据让人工智能变得更加智能, 人工智能让大数据变得更有价值。

大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。

机器学习的任务,就是要在基于大数据量的基础上,发掘其中蕴含并且有用的信息。其处理的数据越多,机器学习就越能体现出优势,以前很多用机器学习解决不了或处理不好的问题,通过提供大数据得到很好解决或性能的大幅提升,如语言识别、图像设别、天气预测等等。

机器学习本质上是利用统计学,概率论等数学手段来挖掘庞大数据里面的价值,数据=>知识 ,从而实现预测正在发生或者未来发生的事物这样的能力。统计学从字面上就能理解了,你一两个数据能统计分析的准确吗?所以非得是极其庞大的数据量不可,一般来说,数据量越大,统计分析的越准确,当然,前提是这些数据都是高质量的。

数据挖掘和机器学习之间最核心的区别其实就是一个是基于历史数据来挖掘,一个是基于历史数据来预测。

大数据分析的常用方法有哪些?

数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。

一、描述型分析:发生了什么?

这是最常见的分析方法。在业务中,这种方法向大数据分析师提供了重要指标和业务的衡量方法。例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

二、诊断型分析:为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

三、预测型分析:可能发生什么?

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

四、指令型分析:需要做什么?

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线。

大数据、数据分析和数据挖掘的区别

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。 

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

例:

1在电商平台上购物,系统会给你推荐某些的商品,依据就是用户数据分析。

2今日头条之类的应用,推送的内容就是利用大数据和人工智能技术实现。

3.某些平台使用的智能客服机器人,就是利用大数据,借助深度学习训练出来的。

4.网易云音乐之类的产品,通过大数据分析给用户推荐歌曲、歌单。

常见的在线数据库有哪些?

在线数据库就是指提供 专业 的数据库支持的网站。 在线数据库将数据库放在 服务器 上,可供用户24小时不间断访问。

?????暂时没有找到答案

谈谈你对Hadoop的了解。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。

1、 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问文件系统中的数据。

2、Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则 MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。

3、它主要有以下几个优点:

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

谈谈你对spark的了解。

Spark是一种快速、通用、可扩展的大数据分析引擎,是UC Berkeley AMP lab (加州大学伯克利分校AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,专门用于大规模数据的迭代式计算,是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop。2009年诞生,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。

Spark 的 最 主 要 的 核 心 技 术 是 Resilient Distributed Datasets(RDD)即弹性分布式数据集,此外还包括 Spark有向无环图 DAG,Spark部署模式以及Spark架构。

Apache Spark是一个开源的、强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高:当数据存储在内存中时,它比Apache Hadoop快100倍,访问磁盘时高达10倍。

Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

spark比MapReduce快的原因:spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的

Java和大数据到底是什么关系?

java可以用来做大数据工作,大数据开发或者应用不必要用java,可以Python,Scala,go语言等。

目前最火的大数据开发平台是Hadoop,而Hadoop则是采用java语言编写。一方面由于hadoop的历史原因,Hadoop的项目诞生于一个java高手;另一方面,也有Java跨平台方面的优势;基于这两个方面的原因,所以Hadoop采用了Java语言。但是也因为Hadoop使用了java所以就出现了市场上很多外行所说的“Java大数据”。

什么是神经网络?

神经网络,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为“神经网络”或类神经网络。

用过哪些搜索引擎,他们的区别是什么

谷歌的优点:信息量广和百度比较能更有效的找到准确的信息而且广告少

缺点:

相关推荐: