目录
第一部分:介绍爬虫项目
1、微信好友的爬虫
2、拉勾网的数据那么多的招聘信息有用吗?
3、豆瓣的图书、电影信息有用吗?
4、美团和大众点评的数据有用吗?
5、伯乐在线的文章数据有用吗?
6、腾讯NBA的用户评论数据有用吗?
7、链家网的数据有用吗?
8、知乎的数据如何用呢?
第二部分:对知乎的数据分析
1.0 简介
1.1 数据
1.2 玩的不是同一个知乎:均值、中位数与标准差
1.3 当雪球滚到最后:长尾和幂律分布
1.4 论如何滚成人生赢家:赞同与关注
2.0 社交网络是什么?
2.1 分析对象和分析方法
2.2 抱团的大V们:网络总体特征
2.3 给大V排个位:网络连接分析
2.4 不均衡中的均衡:Closeness和Betweenness中心度
2.5 大V都在关注什么:热门话题分析
第三部分: 抓取各类项目数据汇总
0、IT桔子和36Kr
1、知乎
2、汽车之家
3、天猫、京东、淘宝等电商网站
4、58同城的房产、安居客、Q房网、搜房等房产网站
5、大众点评、美团网等餐饮及消费类网站
6、58同城等分类信息网站
7、拉勾网、中华英才网等招聘网站
9、应用宝等App市场
10、携程、去哪儿及12306等交通出行类网站
11、雪球等财经类网站
12、58同城二手车、易车等汽车类网站
13、神州租车、一嗨租车等租车类网站
14、各类信托网站
15 简单来分析一下知乎的数据
附加
第四部分:提供几个API网站
一、生活服务
二、金融数据
1.股票
2.大宗商品
3.美股等综合类
4.财经数据
5.网贷数据
6.公司年报
6.创投数据
7.社交平台
8.就业招聘
餐饮食品
9.交通旅游
10.电商平台
11.影音数据
12.房屋信息
13.购车租车
14.新媒体数据
15.分类信息
16.网络指数(可能需用图像识别)
第五部分:详细数据分析
1.享一实验-获取QQ好友或QQ群里爆了照再撤回全部图片
1.统计一下图片文件所携带的信息
2. 拉勾网上的技术类的招聘信息
3.对拉勾网上面的职位信息进行爬取
爬虫系统
分析报告
4.职位印象
1.这是抓取的所有详情页数据
2.这是分析结果
5.留学论坛的数据分析:
1.利用D3.js做了一个拓扑图草图
2. 之后增加了筛选,按照投资次数多少来筛选投资机构
3. 增加了点击气泡查看被投资公司列表,
4. 增加line chart和bar chart查看全部投资机构或者各投资机构的投资趋势变化及在各轮次的投资次数变化。
第六部分:专爬知乎下的精华回答,作统计分析
一.代码
二.算法简述
1.爬虫算法
2.收集数量
3.分析内容
三.统计结果
1.匿名答主
2.答主性别
3.答主受教育情况
4.雇主
5.精华回答的赞同数
6.回答字数
后记
第七部分:从某处爬到的某美国著名高校170000+份研究生申请文件。
第八部分:爬过有趣的有用的有意义的网站
1.教务网站(涉及模拟登录)
2.小游戏网站
3.亚文化与小清新网站
4.微信公众号
5.股票数据
6.音乐网站
7.自己写的可配置爬虫
什么是可配置爬虫?
可配置爬虫Python
一、爬虫抓到的数据的分析方式设想
二.分析的主题:《基于新浪微博的京东白条发展建议》
第九部分:哪些数据比较有价值?
微信公众号数据
哪些数据比较有价值?
一、我们先拿企业和事业单位来分析
二、我们再来拿个人分析。
数据如何转换成回报--盈利模式探讨?
第十部分:爬取张佳玮138w+知乎关注者:数据可视化
一、前言
二、数据可视化
1、关注人数
2、性别情况
3、10w+大V
4、居住地分布
5、Top20 系列
6、认证信息
7、优秀回答者
三、小结
第十一部分:拉勾招聘网站爬取了532条数据分析师岗位的招聘数据
一、数据分析师需求现状
(1)城市分布
(2)行业分布
(3)学历要求
(4)经验要求
(5)公司规模分布
(6)公司融资阶段
二、数据分析师工作简述
(1)岗位职责
(2)岗位要求
三、数据分析师薪资影响因素
(1)城市因素
(2)领域因素
(3)学历因素
(4)经验因素
(5)公司规模因素
(6)公司发展阶段因素
(7)技能因素
五、结论
(1)可选择北京和上海入职,并且选择移动互联网和金融行业。
(2)可选择公司规模较大、发展较为成熟的公司
(3)至少需要积累1年的相关工作经验,至少要掌握2个以上的数据分析工具
第十二部分:爬虫采集知乎的粉丝情况
分为两步,获取数据和分析数据
粉丝数排行
回答与发文量
简单总结,个人感觉、取决下面几点
第十四部分:用八爪鱼去采集
玩法
玩法一:收集最新热门新闻事件
玩法二:三分钟爬取QQ号码
玩法三:寻觅团购优惠和美食
玩法四:协助豆瓣打造个性化交友圈
玩法五:在百度地图上快速定位
玩法六:收集电商平台产品信息
玩法七:采集赶集网房源信息
玩法八:实时分析股票行情
玩法九:采集招聘网站职位信息
玩法十:高效收罗法律判决文书
实战
一、数据来源
二、分析部分
1、什么样的公司爱招数据产品经理(数据PM需求现状)
2、什么样的求职者更符合企业期望 (企业对数据PM要求)
3、 什么样的企业最壕(数据PM待遇)
3.2学历
3.3城市
三、总结
回顾之前,我用爬虫做了很多事情。
第一部分:介绍爬虫项目1、微信好友的爬虫
了解一下你的好友全国分布,男女比例,听起来似乎是一个不错的想法,当然你还可以识别一下你的好友有多少人是用自己照片作为头像的,详细的内容可以点击这里:Python对微信好友进行简单统计分析
2、拉勾网的数据那么多的招聘信息有用吗?当然有用,你想了解一下你所在城市的各种主流语言(Java、PHP、JavaScript、Python、C++)的薪资水平吗?这或许对你的学习决策是一个很大的帮助:
Java/Python/PHP/C#/C++各大城市招聘状况分析web前端开发各大城市招聘状况分析 3、豆瓣的图书、电影信息有用吗?当然有,你想了解一下哪位小说作家的作品质量最高吗?是否想了解豆瓣上最热门的书记都有哪些,有没有你错过的好书籍呢?豆瓣的电影评论有水军吗?
爬取6.6w+豆瓣电影之后的分析故事豆瓣5.6分的《西游伏妖篇》评论有水军吗?
4、美团和大众点评的数据有用吗?
有呀,你真的了解周黑鸭和绝味吗?你知道在哪些城市周黑鸭比绝味火,哪些城市绝味比周黑鸭火呢?如果你都不知道,你就不算是鸭脖控!你所不知道的周黑鸭和绝味鸭脖
5、伯乐在线的文章数据有用吗?
有啊,作为技术人员如何写一篇受欢迎的技术文章,作为一名Python初学者如何快速找到Python全面的学习资料,一个爬虫就够了:抓取1400篇Python文章后的故事(内附高质量Python文章推荐)
6、腾讯NBA的用户评论数据有用吗?
你用会员看一场NBA,我用爬虫也能看完一场精彩的NBA:用弹幕看一场NBA(公牛 - 老鹰),甚至我还能看到很多你看不到的东西,不信你点进