导航菜单
首页 >  近几年的考研人数和录取人数  > 【数据可视化】大作业(意向考研高校的数据可视化)

【数据可视化】大作业(意向考研高校的数据可视化)

文章目录前言一、数据介绍1.1 基本信息1.2 考研信息1.3 导师信息二、预处理及分析2.1 数据预处理2.1.1 考研信息预处理2.1.2 导师信息预处理 2.2 数据分析三、可视化方法及结果3.1 可视化方法3.2 可视化结果展示3.2.1 基本信息3.2.2 考研信息3.2.3 导师信息四、总结五、附录

前言 将该高校的地理位置以地图的形式展示。将该高校近几年计算机相关专业的考研(或高考)录取成绩、人数信息,专业师资队伍,考试科目及内容等等以合适的柱状图、折线图、饼图等方式表示出来,图表能够清晰得呈现不同数据的变化,使得观察图表的人能够迅速得获取信息。录取成绩、录取人数信息、专业师资队伍柱状图、折线图、饼图 对个人感兴趣的导师、研究方向等多属性、多维度、多关系数据选用关系、词云等可视化方法,使数据清晰有效地表达。研究方向(关系+词云) 其它自由发挥部分一、数据介绍 1.1 基本信息 学校名称:山东理工大学地理位置:山东省淄博市,北纬36.810315,东经117.999601院校:计算机科学与技术学院 1.2 考研信息 下载相关信息:2020考研拟录取名单:山东理工大学2020年硕士研究生拟录取名单PDF识别为Excel:PDF在线转换工具、WPS会员(钞能力)、python

通过网络搜集2020-2022年,山东理工大学计算机科学与技术专业(学硕+专硕)第一志愿录取情况信息,具体信息包括:复试学院代码,复试学院,姓名,初试考试编号,复试专业代码,复试专业名称,研究方向代码,学习形式,一志愿/调剂,初试成绩,综合面试成绩",总成绩,排名,录取结果,备注。需要注意的是该数据并非来自官网(学校官网信息已关闭),在数据结果上存在误差。

import PyPDF2import pytesseractimport pandas as pdimport os# 设置OCR引擎(如果需要)# pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract' # 指定Tesseract OCR引擎的路径# 将PDF文件转换为文本def pdf_to_text(pdf_path):text = ""with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)num_pages = len(reader.pages)for page in range(num_pages):pdf_page = reader.pages[page]text += pdf_page.extract_text()return text# 使用OCR识别文本def ocr_text(image_path):text = pytesseract.image_to_string(image_path)return text# 将文本保存为Excel文件def save_text_as_excel(text, output_path):lines = text.split('\n')data = [line.split() for line in lines if line.strip()]df = pd.DataFrame(data)df.to_excel(output_path, index=False)# 主函数def pdf_to_excel(pdf_folder, output_folder):pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]for pdf_file in pdf_files:pdf_path = os.path.join(pdf_folder, pdf_file)text = pdf_to_text(pdf_path)# 使用OCR识别文本(如果需要)# image_path = 'image.png' # 将PDF转换为图像文件(可选)# text = ocr_text(image_path)excel_file = pdf_file.replace('.pdf', '.xlsx')output_path = os.path.join(output_folder, excel_file)save_text_as_excel(text, output_path)print("转换完成!")# 调用函数进行转换pdf_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Data/'output_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Output/'pdf_to_excel(pdf_folder, output_folder)

在这里插入图片描述

其他相关信息: (104)山东理工大学2020计算机考研数据速览 (189)山东理工大学2021计算机考研数据速览,专硕复试线299分,学硕接收调剂 (112)山东理工大学22计算机考研数据速览,学硕接收调剂1.3 导师信息

通过山东理工大学计算机科学与技术学院官网,搜集获取研究生导师信息。

获取信息:姓名、职位、主要学习工作简历、主要研究方向、社会兼职及荣誉称号、主讲课程及主要教学奖励、主要科研成果及奖励爬取代码:导师队伍 import timeimport requestsfrom lxml import etreeimport pandas as pddef scrape_website(url, dataframe):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 创建字典来存储爬取的数据data = {}# 基本信息item1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h2//text()')item2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h3//text()')data['Item 1'] = item1data['Item 2'] = item2# 主要学习工作简历data1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[2]/div/p//text()')data['Main Education and Work Experience'] = data1# 主要研究方向data2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[3]/div/p//text()')data['Main Research Areas'] = data2# 社会兼职及荣誉称号data3 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[4]/div/p//text()')data['Social Positions and Honors'] = data3# 主讲课程及主要教学奖励data4 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[5]/div/p//text()')data['Main Courses and Teaching Awards'] = data4# 主要科研成果及奖励data5 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[6]/div/p//text()')data['Main Research Achievements and Awards'] = data5# 将数据转换为DataFrame并添加到现有DataFrame中new_dataframe = pd.DataFrame([data])dataframe = pd.concat([dataframe, new_dataframe], ignore_index=True)return dataframeelse:print("请求失败")def scrape_url(url):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 提取所有

相关推荐: