ScrapyTutorial - 标签 | 飞污熊小站

Scrapy笔记12- 抓取动态网站

yidao620@163.com (XiongNeng) — Fri, 15 Apr 2016 00:38:12 +0800

前面我们介绍的都是去抓取静态的网站页面，也就是说我们打开某个链接，它的内容全部呈现出来。但是如今的互联网大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js，并有Ajax渲染，下载某个链接得到的页面里面含有异步加载的内容，这样再使用之前的方式我们根本获取不到异步加载的这些网页内容。

Scrapy笔记11- 模拟登录

yidao620@163.com (XiongNeng) — Tue, 12 Apr 2016 00:25:12 +0800

有时候爬取网站的时候需要登录，在Scrapy中可以通过模拟登录保存cookie后再去爬取相应的页面。这里我通过登录github然后爬取自己的issue列表来演示下整个原理。

要想实现登录就需要表单提交，先通过浏览器访问github的登录页面https://github.com/login，然后使用浏览器调试工具来得到登录时需要提交什么东西。

Scrapy笔记10- 动态配置爬虫

yidao620@163.com (XiongNeng) — Sun, 10 Apr 2016 00:16:12 +0800

有很多时候我们需要从多个网站爬取所需要的数据，比如我们想爬取多个网站的新闻，将其存储到数据库同一个表中。我们是不是要对每个网站都得去定义一个Spider类呢？其实不需要，我们可以通过维护一个规则配置表或者一个规则配置文件来动态增加或修改爬取规则，然后程序代码不需要更改就能实现多个网站爬取。

Scrapy笔记09- 部署

yidao620@163.com (XiongNeng) — Mon, 21 Mar 2016 00:16:12 +0800

本篇主要介绍两种部署爬虫的方案。如果仅仅在开发调试的时候在本地部署跑起来是很容易的，不过要是生产环境，爬虫任务量大，并且持续时间长，那么还是建议使用专业的部署方法。主要是两种方案：

Scrapyd 开源方案
Scrapy Cloud 云方案

部署到Scrapyd

Scrapyd是一个开源软件，用来运行蜘蛛爬虫。它提供了HTTP API的服务器，还能运行和监控Scrapy的蜘蛛

Scrapy笔记08- 文件与图片

yidao620@163.com (XiongNeng) — Sun, 20 Mar 2016 01:16:12 +0800

Scrapy为我们提供了可重用的item pipelines为某个特定的Item去下载文件。通常来说你会选择使用Files Pipeline或Images Pipeline。

这两个管道都实现了：

避免重复下载
可以指定下载后保存的地方(文件系统目录中,Amazon S3中)

Images Pipeline为处理图片提供了额外的功能：

Scrapy笔记07- 内置服务

yidao620@163.com (XiongNeng) — Sat, 19 Mar 2016 01:12:12 +0800

Scrapy使用Python内置的的日志系统来记录事件日志。

日志配置

LOG_ENABLED = true
LOG_ENCODING = "utf-8"
LOG_LEVEL = logging.INFO
LOG_FILE = "log/spider.log"
LOG_STDOUT = True
LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s"
LOG_DATEFORMAT = "%Y-%m-%d %H:%M:%S"

使用也很简单

import logging

logger = logging.getLogger(__name__)
logger.warning("This is a warning")

如果在Spider里面使用，那就更简单了，因为logger就是它的一个实例变量

Scrapy笔记06- Item Pipeline

yidao620@163.com (XiongNeng) — Fri, 18 Mar 2016 01:00:12 +0800

当一个item被蜘蛛爬取到之后会被发送给Item Pipeline，然后多个组件按照顺序处理这个item。每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑，还能决定这个item到底是否还要继续往下传输，如果不要了就直接丢弃。

Scrapy笔记05- Item详解

yidao620@163.com (XiongNeng) — Wed, 16 Mar 2016 01:00:15 +0800

Item是保存结构数据的地方，Scrapy可以将解析结果以字典形式返回，但是Python中字典缺少结构，在大型爬虫系统中很不方便。

Item提供了类字典的API，并且可以很方便的声明字段，很多Scrapy组件可以利用Item的其他信息。

Scrapy笔记04- Selector详解

yidao620@163.com (XiongNeng) — Mon, 14 Mar 2016 02:00:15 +0800

在你爬取网页的时候，最普遍的事情就是在页面源码中提取需要的数据，我们有几个库可以帮你完成这个任务：

BeautifulSoup是python中一个非常流行的抓取库, 它还能合理的处理错误格式的标签，但是有一个唯一缺点就是：它运行很慢。
lxml是一个基于ElementTree 的XML解析库(同时还能解析HTML), 不过lxml并不是Python标准库

而Scrapy实现了自己的数据提取机制，它们被称为选择器，通过XPath 或CSS表达式在HTML文档中来选择特定的部分

Scrapy笔记03- Spider详解

yidao620@163.com (XiongNeng) — Sat, 12 Mar 2016 01:19:15 +0800

Spider是爬虫框架的核心，爬取流程如下：

先初始化请求URL列表，并指定下载后处理response的回调函数。初次请求URL通过start_urls指定，调用start_requests() 产生Request对象，然后注册parse方法作为回调
在parse回调中解析response并返回字典,Item对象,Request对象或它们的迭代对象。Request 对象还会包含回调函数，之后Scrapy下载完后会被这里注册的回调函数处理。
在回调函数里面，你通过使用选择器（同样可以使用BeautifulSoup,lxml或其他工具）解析页面内容，并生成解析后的结果Item。
最后返回的这些Item通常会被持久化到数据库中( 使用Item Pipeline) 或者使用Feed exports将其保存到文件中。

尽管这个流程适合于所有的蜘蛛，但是Scrapy里面为不同的使用目的实现了一些常见的Spider。下面我们把它们列出来。

Scrapy笔记02- 完整示例

yidao620@163.com (XiongNeng) — Thu, 10 Mar 2016 09:59:15 +0800

这篇文章我们通过一个比较完整的例子来教你使用Scrapy，我选择爬取虎嗅网首页的新闻列表。

这里我们将完成如下几个步骤：

创建一个新的Scrapy工程
定义你所需要要抽取的Item对象
编写一个spider来爬取某个网站并提取出所有的Item对象
编写一个Item Pipline来存储提取出来的Item对象

Scrapy使用Python语言编写，如果你对这门语言还不熟，请先去学习下基本知识。

Scrapy笔记01- 入门篇

yidao620@163.com (XiongNeng) — Tue, 08 Mar 2016 10:59:15 +0800

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(比如Web Services)或者通用的网络爬虫。