楚江数据楚江数据

从零开始写Python爬虫 — 3.1 Selenium模拟浏览器

2017-08-09 作者: admin 分类:爬虫应用实例浏览:291顶 (0)

Selenium的介绍: 为什么我们要使用这个包呢?在写Python爬虫的时候,最麻烦的不是那些海量的静态网站,而是那些通过JavaScript获取数据的站点。Python本身对js的支持就不好,所以就有良心的开发者来做贡献了,这就是Selenium,他本身可以模拟真实的浏览器,...

从零开始写Python爬虫 — 2.5 爬虫实践:糗事百科&爬虫攻防

2017-08-09 作者: admin 分类:爬虫应用实例浏览:288顶 (0)

既然上次我们爬了大量的代理下来,我们肯定是要用的,对吧?这次我就找了个有点反爬虫能力的网站:糗事百科 ,来作为一个小例子。   目标分析: 糗事百科一直是各种段子的聚集体,既然是段子,最主要的部分就是文字,这样一想,爬点文字下载估计非常的简单。 看一下网站的模样: &l...

从零开始写Python爬虫 — 2.4 爬虫实践:代理的爬取和验证

2017-08-09 作者: admin 分类:爬虫应用实例浏览:259顶 (0)

爬网站的时候,由于各种原因,ip被锁了,这个时候我们就需要通过代理来突破封锁。网上有很多代理网站,付费和免费的都有,这次我们就来写一个scrapy爬虫,爬一些免费的代理下来用。 目标分析: 本次爬取了代理网站: 大象代理:HTTP免费HTTP代理IP_HTTP 快代理: 快代理 ...

从零开始写Python爬虫 — 2.2 Scrapy 选择器和基本使用

2017-08-09 作者: admin 分类:爬虫技术分享浏览:233顶 (0)

在正式使用Scrapy框架之前,我们必须先了解它是如何筛选数据的,Scrapy有自己的一套数据选择器,比如Xpath和CCSS选择器。并且这些选择器构造于‘lxml’之上,这就意味着Scrapy框架下的数据筛选有着很高的效率。 基本选择器: Scrapy爬虫支持多种信息提取的方法...

从零开始写Python爬虫 — 1.9 爬虫实践:悦音台mv排行榜与反爬虫技术

2017-08-09 作者: admin 分类:爬虫应用实例浏览:389顶 (0)

这篇文章是 requests-bs4爬虫线路的最后一个章节了,我们这次要抓的是悦音台mv的排行榜,由于这个排行榜是实时更新的,如果要求我们不停地抓取,这将有可能导致悦音台官方采用反爬虫的技术将我们的ip给封了。所以这里也会捎带一点与反爬虫相关的知识: 目标分析: 看一下网址先: ...

在线客服