通过网络搜集2020-2022年,山东理工大学计算机科学与技术专业(学硕+专硕)第一志愿录取情况信息,具体信息包括:复试学院代码,复试学院,姓名,初试考试编号,复试专业代码,复试专业名称,研究方向代码,学习形式,一志愿/调剂,初试成绩,综合面试成绩",总成绩,排名,录取结果,备注。需要注意的是该数据并非来自官网(学校官网信息已关闭),在数据结果上存在误差。
import PyPDF2import pytesseractimport pandas as pdimport os# 设置OCR引擎(如果需要)# pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract' # 指定Tesseract OCR引擎的路径# 将PDF文件转换为文本def pdf_to_text(pdf_path):text = ""with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)num_pages = len(reader.pages)for page in range(num_pages):pdf_page = reader.pages[page]text += pdf_page.extract_text()return text# 使用OCR识别文本def ocr_text(image_path):text = pytesseract.image_to_string(image_path)return text# 将文本保存为Excel文件def save_text_as_excel(text, output_path):lines = text.split('\n')data = [line.split() for line in lines if line.strip()]df = pd.DataFrame(data)df.to_excel(output_path, index=False)# 主函数def pdf_to_excel(pdf_folder, output_folder):pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]for pdf_file in pdf_files:pdf_path = os.path.join(pdf_folder, pdf_file)text = pdf_to_text(pdf_path)# 使用OCR识别文本(如果需要)# image_path = 'image.png' # 将PDF转换为图像文件(可选)# text = ocr_text(image_path)excel_file = pdf_file.replace('.pdf', '.xlsx')output_path = os.path.join(output_folder, excel_file)save_text_as_excel(text, output_path)print("转换完成!")# 调用函数进行转换pdf_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Data/'output_folder = '/Users/liuhao/MyProject/PycharmProject/DataVisualization/Project1/Output/'pdf_to_excel(pdf_folder, output_folder) 其他相关信息: (104)山东理工大学2020计算机考研数据速览 (189)山东理工大学2021计算机考研数据速览,专硕复试线299分,学硕接收调剂 (112)山东理工大学22计算机考研数据速览,学硕接收调剂1.3 导师信息通过山东理工大学计算机科学与技术学院官网,搜集获取研究生导师信息。
获取信息:姓名、职位、主要学习工作简历、主要研究方向、社会兼职及荣誉称号、主讲课程及主要教学奖励、主要科研成果及奖励爬取代码:导师队伍 import timeimport requestsfrom lxml import etreeimport pandas as pddef scrape_website(url, dataframe):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 创建字典来存储爬取的数据data = {}# 基本信息item1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h2//text()')item2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[1]/div[2]/h3//text()')data['Item 1'] = item1data['Item 2'] = item2# 主要学习工作简历data1 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[2]/div/p//text()')data['Main Education and Work Experience'] = data1# 主要研究方向data2 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[3]/div/p//text()')data['Main Research Areas'] = data2# 社会兼职及荣誉称号data3 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[4]/div/p//text()')data['Social Positions and Honors'] = data3# 主讲课程及主要教学奖励data4 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[5]/div/p//text()')data['Main Courses and Teaching Awards'] = data4# 主要科研成果及奖励data5 = tree.xpath('/html/body/div[4]/div/div[2]/div/div[6]/div/p//text()')data['Main Research Achievements and Awards'] = data5# 将数据转换为DataFrame并添加到现有DataFrame中new_dataframe = pd.DataFrame([data])dataframe = pd.concat([dataframe, new_dataframe], ignore_index=True)return dataframeelse:print("请求失败")def scrape_url(url):# 发起HTTP请求获取网页内容response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 使用lxml库解析网页内容html = response.texttree = etree.HTML(html)# 提取所有