导航菜单
首页 >  Python在大数据挖掘中的应用  > 清华大学出版社

清华大学出版社

本书使用Python编程语言分析大数据,全书以案例为主线,通过大量实例演示了Python在大数据分析应用中的强大功能。本书共分为9章,内容包括Python编程环境的搭建,变量、常量与数据类型,常用的内置函数,列表、元组及字典的用法,顺序结构、选择结构及循环结构三种控制流的用法,函数定义及使用,模块导入及常用模块的用法,数据获取、数据预处理及导入外部数据的方法,matplotlib数据可视化方法,常用的聚类、分类及回归算法的Python实现,决策树及随机森林算法的Python实现。本书可作为高等院校计算机科学与技术、大数据专业或者相关专业的教材,也可作为读者自学Python数据处理的参考书。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。

more >

前言Python语言是目前流行的编程语言之一,在各领域应用中已经受到越来越多的重视。Python语言已经成为各高等院校的计算机专业、大数据专业等相关专业的必修课程,有的高等院校已经把Python语言作为非计算机专业学生的公共必修课,甚至有些中学已经开设了Python程序设计课程。在众多的高级编程语言中,Python语言是非常适合作为数据分析的编程语言之一。Python语言语法简洁、功能强大,具有非常丰富的扩展库,并且易学易用。目前,市面上已经出版了许多Python语言类的教程。但是编者在多年的教学中感觉一些Python基础教程还存在一些问题,特别是学生通过基础教程的学习,了解了Python的基本语法,掌握了一些编程技巧,但是仍然不能有效地利用Python解决一些实际问题。所以,编者以提高学生的实际应用能力为出发点编写了本书。本书以培养学生的逻辑思维能力、实践编程能力及解决实际问题能力为目标,精心设计了教学内容,通过大量的应用实例,让学生真正地理解Python在解决实际问题时的魅力,从而可以真正学会如何应用Python解决实际问题。本书主要供高等院校计算机专业、大数据专业及信息技术相关专业的学生使用。建议读者在学习本书的过程中一定要对每一个实例都亲自实践练习,在能把本书的实例调试运行成功的基础上,再尝试换不同的数据集或换不同的算法进行改进实践。读者在实践过程中遇到问题时要多思考,可以上网搜索产生问题的原因,及时解决发现的问题,在不断发现问题并解决问题的过程中总结经验、积累经验,从而有效地实现知识与技能及综合实践能力的提升。本书内容共分为9章。第1章主要介绍Python环境的搭建,重点介绍Anaconda环境的搭建及集成开发环境Spyder的使用方法。第2章主要介绍Python中的主要基础语法知识,包括变量、常量与数据类型,Python中常用的内置函数用法,列表、元组及字典的用法,顺序结构、分支结构及循环结构三种控制流的语法格式及应用实例。第3章主要介绍Python中自定义函数、函数的实参与形参及变量的作用域等用法,lambda表达式的用法,Python中导入模块的方法,几种常见模块的使用方法,使用numpy模块创建ndarray数组,数组的切片、转置、去重、集合运算及常用的统计方法,创建矩阵、矩阵乘法运算、矩阵的转置和逆运算、方阵的迹运算、矩阵的秩、矩阵的特征值及特征向量的计算方法,类的定义及使用方法。第4章主要介绍利用爬虫技术获取网络数据的方法,利用pandas模块的series和DataFrame数据类型的使用方法,导入外部.csv、.xlsx及.txt文件的使用方法,查看数据集的缺失值、删除数据集中的缺失值、填充数据集中的缺失值、重复值处理、合并数据及数据统计等数据预处理方法,将处理好的数据保存到本地磁盘的使用方法,还简单介绍sklearn库提供的一些自带数据集。第5章主要介绍在matplolib中如何创建画布、绘制图形及保存图形,划分子图的方法,绘制折线图、条形图、饼图、散点图、直方图、箱线图、小提琴图、热力图及词云图的方法,最后通过一个应用实例演示如何利用数据可视化结果分析大数据。第6章主要介绍K均值聚类、层次聚类、基于密度的聚类、谱聚类及Birch聚类算法的Python实现方法,利用这些聚类方法创建模型时的调参方法,最后用一个综合实例演示了聚类模型在大数据分析中的应用步骤。第7章主要介绍KNN分类器、非线性支持向量机、线性支持向量机及三种朴素贝叶斯的分类算法在Python中的实现方法,分类模型的评估方法,以文本分类的实现演示了分类模型在实际数据分析中的应用方法。第8章主要介绍最小二乘线性回归、Lasso回归、岭回归及逻辑回归算法在Python中的实现方法,回归模型的评估方法,并利用波士顿房价数据集对比各种回归算法的预测效果。第9章主要介绍分类决策树、导出决策树、绘制决策树、回归决策树及几种随机森林算法的Python实现方法,交叉验证的评估方法的实现,UCI数据库简介,最后用一个综合实例对比各种算法在糖尿病数据集上的预测效果,并用图形可视化的方法显示算法的对比结果。本书提供了全套的配套教学课件(PPT文件)、各章实例的源代码(.py源文件)及每章的课后习题参考答案,配套资源可以登录清华大学出版社官方网站进行下载。感谢山东省教育服务新旧动能转换专业对接产业项目(曲阜师范大学精品旅游)对本书的资助。同时,感谢山东省社会科学规划研究项目·重点项目(21BTQJ02)对本书的支持。本书由朱荣主编,尚军亮、赵景秀副主编,吴俊华、王永及代凌云参与编写。在本书编写过程中,编者参考了大量文献,在此对文献作者一并表示感谢。Python语言的应用发展非常迅速,虽然编者在编写本书时尽了最大的努力,但难免会有不足和遗漏之处,真诚地希望各位专家及读者朋友们多提宝贵意见,编者将不胜感激。编者

more > 课件下载 样章下载 暂无网络资源扫描二维码下载APP了解

相关推荐: