导航菜单
首页 >  考研 微博 话题  > GitHub

GitHub

微博文本情绪分析及可视化一、项目简介

​微博情感分析项目从微博热搜中获取热搜中的每一条微博文本,在进行数据预处理之后,通过机器学习中的朴素贝叶斯算法和支持向量机算法训练两个数据分类模型,同时,训练一个文本特征提取模型,在将模型保存后,实时爬取微博中的微博文本,加载训练好的模型进行分类,将其积极消极概率值作为其对应情感分值(-1到1之间,越接近1越积极,越接近-1越消极),用kafka将每一条微博文本及对应的情感分值传到spark,写入文件保存。最终,搭建一个网站,以可视化的方式来展现分析结果,结果有:微博情绪分值的柱状图和情感分类的占比图。

二、项目开发环境1.总体环境

​项目的总体环境为集群,操作系统的centos7,jdk版本是jdk-8u212,python版本是Python-3.7.0,spark版本是spark-3.0.2-bin-hadoop3.2,scala版本是scala-2.12.12,zookeeper版本是apache-zookeeper-3.5.8,kafka版本是kafka_2.12-2.7.0。

​集群为:hadoop131、hadoop132、hadoop133。搭建了zookeeper集群和kafka集群。

2.数据获取和处理模块

​这一模块主要是用来爬取微博文本数据,并对文本数据做数据预处理,以达到文本数据可分析、可预测的状态。在这个模块中主要用到的语言是Python,所用到的组件(Python库)主要有Requests、Urllib、Beautifulsoup、jieba、Re等。

​Requests是一个功能强大且易于使用的库,使得发送和处理 HTTP 请求变得简单而便捷,广泛应用于爬虫、API 调用、Web 开发等领域。在这个项目中是用来获取微博热搜和热搜话题中每一条微博的html源代码。

​Urllib是 Python 内置的标准库,提供了一系列用于处理 URL 的模块。它们可以帮助开发者进行网络资源的访问、URL 解析、错误处理和机器人协议的解析等操作。

​Beautifulsoup是一个 Python 第三方库,用于解析 HTML、XML 等文档,并提供了简单而直观的方法来遍历文档树、搜索特定标签和提取所需信息。在这个项目中主要是用来提取关键的微博文本信息,为后续数据建模和预测做准备。

​Re是 Python 内置的正则表达式库,全称为 Regular Expression。正则表达式是一种强大的文本处理工具,它用于匹配、查找和编辑字符串中的模式。在这个项目中主要是用来对微博文本数据进行清洗,去除微博文本中用户名、

相关推荐: