【数据可视化】大作业（意向考研高校的数据可视化）

文章目录前言一、数据介绍1.1 基本信息1.2 考研信息1.3 导师信息二、预处理及分析2.1 数据预处理2.1.1 考研信息预处理2.1.2 导师信息预处理 2.2 数据分析三、可视化方法及结果3.1 可视化方法3.2 可视化结果展示3.2.1 基本信息3.2.2 考研信息3.2.3 导师信息四、总结五、附录

前言将该高校的地理位置以地图的形式展示。将该高校近几年计算机相关专业的考研（或高考）录取成绩、人数信息，专业师资队伍，考试科目及内容等等以合适的柱状图、折线图、饼图等方式表示出来，图表能够清晰得呈现不同数据的变化，使得观察图表的人能够迅速得获取信息。录取成绩、录取人数信息、专业师资队伍柱状图、折线图、饼图对个人感兴趣的导师、研究方向等多属性、多维度、多关系数据选用关系、词云等可视化方法，使数据清晰有效地表达。研究方向（关系+词云）其它自由发挥部分一、数据介绍 1.1 基本信息学校名称：山东理工大学地理位置：山东省淄博市，北纬36.810315,东经117.999601院校：计算机科学与技术学院 1.2 考研信息下载相关信息：2020考研拟录取名单：山东理工大学2020年硕士研究生拟录取名单PDF识别为Excel：PDF在线转换工具、WPS会员（钞能力）、python

通过网络搜集2020-2022年，山东理工大学计算机科学与技术专业（学硕+专硕）第一志愿录取情况信息，具体信息包括：复试学院代码，复试学院，姓名，初试考试编号，复试专业代码，复试专业名称，研究方向代码，学习形式，一志愿/调剂，初试成绩，综合面试成绩"，总成绩，排名，录取结果，备注。需要注意的是该数据并非来自官网（学校官网信息已关闭），在数据结果上存在误差。

import PyPDF2import pytesseractimport pandas as pdimport os# 设置OCR引擎（如果需要）# pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract' # 指定Tesseract OCR引擎的路径# 将PDF文件转换为文本def pdf_to_text(pdf_path):text = ""with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)num_pages = len(reader.pages)for page in range(num_pages):pdf_page = reader.pages[page]text += pdf_page.extract_text()return text# 使用OCR识别文本def ocr_text(image_path):text = pytesseract.image_to_string(image_path)return text# 将文本保存为Excel文件def save_text_as_excel(text, output_path):lines = text.split('\n')data = [line.split() for line in lines if line.strip()]df = pd.DataFrame(data)df.to_excel(output_path, index=False)# 主函数def pdf_to_excel(pdf_folder, output_folder):pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]for pdf_file in pdf_files:pdf_path = os.path.join(pdf_folder, pdf_file)text = pdf_to_text(pdf_path)# 使用OCR识别文本（如果需要）# image_path = 'image.png' # 将PDF转换为图像文件（可选）# text = ocr_text(image_path)excel_file = pdf_file.replace('.pdf', '.xlsx')output_path = os.path.join(output_folder, excel_file)save_text_as_excel(text, output_path)print("转换完成！")# 调用函数进行转换pdf_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Data/'output_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Output/'pdf_to_excel(pdf_folder, output_folder)

在这里插入图片描述

其他相关信息：（104）山东理工大学2020计算机考研数据速览（189）山东理工大学2021计算机考研数据速览，专硕复试线299分，学硕接收调剂（112）山东理工大学22计算机考研数据速览，学硕接收调剂1.3 导师信息

通过山东理工大学计算机科学与技术学院官网，搜集获取研究生导师信息。

获取信息：姓名、职位、主要学习工作简历、主要研究方向、社会兼职及荣誉称号、主讲课程及主要教学奖励、主要科研成果及奖励爬取代码：导师队伍 import timeimport requestsfrom lxml import etreeimport pandas as pddef scrape_website(url, dataframe):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 创建字典来存储爬取的数据data = {}# 基本信息item1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h2//text()')item2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h3//text()')data['Item 1'] = item1data['Item 2'] = item2# 主要学习工作简历data1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[2]/div/p//text()')data['Main Education and Work Experience'] = data1# 主要研究方向data2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[3]/div/p//text()')data['Main Research Areas'] = data2# 社会兼职及荣誉称号data3 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[4]/div/p//text()')data['Social Positions and Honors'] = data3# 主讲课程及主要教学奖励data4 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[5]/div/p//text()')data['Main Courses and Teaching Awards'] = data4# 主要科研成果及奖励data5 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[6]/div/p//text()')data['Main Research Achievements and Awards'] = data5# 将数据转换为DataFrame并添加到现有DataFrame中new_dataframe = pd.DataFrame([data])dataframe = pd.concat([dataframe, new_dataframe], ignore_index=True)return dataframeelse:print("请求失败")def scrape_url(url):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 提取所有

云奕文章网

【数据可视化】大作业（意向考研高校的数据可视化）

相关推荐：