导航菜单
首页 >  » 正文

如何从零基础开始写一个关于搜索知乎答案的python爬虫 零基础入门Python爬虫不知道怎么学

如何从零基础开始写一个关于搜索知乎答案的python爬虫

首先来说爬虫。
关于爬虫一个不太严谨的理解就是,你可以给爬虫程序设定一个初始的目标页面,然后程序返回目标页面的HTML文档后,从中提取页面中的超链接,然后继续爬到下一个页面中去。从这些页面的HTML文档中可以通过对标签的处理解析出你想要的具体内容。

所以我们可以这么来简单定义一个爬虫的工作过程:
抓取目标页面
解析页面文档获得目的信息
继续爬取下一个页面
存储结果

为了实现这些工作,你需要学习一些常用库的简单用法,包括但不限于:
urllib、urllib2、urllib.request、cookilib (Python的内置库,用来处理HTTP请求)
requests (第三方库,推荐使用requests来处理请求,比urllib方便一些)
re、beautifulsoup (正则表达式匹配内容、bs4解析html文档)

其次呢,因为你要跟网页的源码打交道,尤其是解析HTML文档,所以你最好对HTML和浏览器通信有点简单的了解,会使用Firebug查看源码定位信息在源码中的位置。

落实到题主给出的示例
http://www.zhihu.com/topic/19554091/questions?page=1

这是知乎数学话题全部问题的URL构成。可以看到我们只要修改最后的数字就可以访问到不同的页数。
数学话题下一共有1254页。所以你可以通过简单的对page做循环遍历获得所有问题。
(这种做法是直接构造了地址,或者你可以在爬取每一页以后从页面中得到下一页的链接,这样更像是一个爬虫)

零基础入门Python爬虫不知道怎么学

爬虫需要掌握Python基础,re正则模块,Beatifulsoup,pyquery,xpath,selenium,scrapy等一些知识点,能爬取任何网站,包括某宝,某东。零基础带你,给点学费就行了、

如何学习Python爬虫

其实网络爬虫就是模拟浏览器获取web页面的内容的过程,然后解析页面获取内容的过程。首先要熟悉web页面的结构,就是要有前端的基础,不一定要精通,但是一定要了解。然后熟悉python基础语法,相关库函数(比如beautifulSoup),以及相关框架比如pyspider等。建议刚开始不要使用框架,自己从零开始写,这样你能理解爬虫整个过程。推荐书籍:python网络数据采集 这本书,比较基础。

基础的人,用python写爬虫前应要学会哪些知识



一个刚刚入门的新人,如果要学会爬虫,是非常容易的事情,只要抓住了如下几个点,就能学好!
1、会看懂简单xhtml
2、会抓包
3、会照着urllib2标准库文档写代码,就会慢慢入门的。
如果你刚开始学习Python,很多东西都不懂我建议你可以看一下我发你的基础学习视频,希望能够给你一些启发!

相关推荐: