emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬
使用到的模块 requests Xpath(lxml) docx(python-docx)
首先给出目标网页的URL:http://www.manongjc.com/detail/7-tyzzyvdyjzszbif.html 然后,肯定是让咱瞧瞧这个网页的真面目(源码结构)是什么,操作很简单,我使用的是Google浏览器开发者工具,源码部分如下图所示
很显然,我们需要的试题都在
里 知道了需要的东西在哪,接下来就好办了,问题是怎么获取到它了
先使用requests请求获得网页的HTML文rs = requests.get(url=url, headers=headers)
进一步,对获取得到的rs进行处理解析,这里使用到Xpath的知识
root = etree.HTML(rs.content)texts = root.xpath('//div[@class="article-content"]/p/text()')我们在控制台看看texts有没有成功解析出来 很不错,到这里,我们的目的已经实现了一大半了ÿ