Scrapy 结合 Splash 实战：动态网页数据抓取指南

许多现代网站使用 JavaScript 来动态加载内容，这给传统的 Scrapy 爬虫带来了挑战，因为 Scrapy 默认只能抓取静态 HTML。为了解决这个问题，我们可以将 Scrapy 与 Splash 结合使用。Splash 是一个轻量级的浏览器，可以渲染 JavaScript 并返回渲染后的 HTML，然后 Scrapy 就可以像处理静态页面一样处理它。那么，如何操作呢？别着急，一步一步来！

1. 准备工作：安装 Scrapy 和 Splash

首先，确保你已经安装了 Scrapy。如果没有，可以使用 pip 安装：

pip install scrapy

接下来，你需要安装并运行 Splash。最简单的方法是使用 Docker：

docker pull scrapinghub/splash
docker run -p 8050:8050 scrapinghub/splash

这将下载 Splash 镜像并在本地的 8050 端口运行它。你可以通过访问 http://localhost:8050 来验证 Splash 是否正在运行。如果看到 Splash 的 Web 界面，那就说明一切正常。

2. 创建 Scrapy 项目

使用 Scrapy 创建一个新的项目：

scrapy startproject dynamic_scraper
cd dynamic_scraper

这将创建一个名为 dynamic_scraper 的新目录，其中包含 Scrapy 项目的基本结构。

3. 定义 Spider

在 spiders 目录下创建一个新的 Spider，例如 dynamic_spider.py：

import scrapy
from scrapy_splash import SplashRequest


class DynamicSpider(scrapy.Spider):
    name = "dynamic_spider"
    allowed_domains = ["example.com"]
    start_urls = ["http://example.com/dynamic_page"]

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, self.parse, args={'wait': 0.5})

    def parse(self, response):
        # 在这里提取数据
        yield {
            'title': response.xpath('//title/text()').get(),
            'body': response.xpath('//body/text()').get(),
        }

代码解释:

SplashRequest：这是 Scrapy-Splash 提供的请求类，用于告诉 Scrapy 使用 Splash 来处理这个请求。
args={'wait': 0.5}：这个参数告诉 Splash 在渲染页面后等待 0.5 秒。你可以根据页面加载的实际情况调整这个值。
response.xpath('//title/text()').get(): 使用 XPath 选择器提取 title 标签的文本内容。
response.xpath('//body/text()').get(): 使用 XPath 选择器提取 body 标签的文本内容（这只是一个示例，实际应用中需要根据页面的具体结构来选择）。

重要提示:

你需要安装 scrapy-splash 库： pip install scrapy-splash
确保在 settings.py 中启用 Splash 中间件，具体方法见下一步。

4. 配置 Scrapy 设置 (settings.py)

打开 settings.py 文件，并进行以下配置：

启用 Splash 中间件：

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

启用 Splash HTTP 缓存（可选，但推荐）：

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

配置 Splash 的 URL：

SPLASH_URL = 'http://localhost:8050'

配置 User-Agent:

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

很多网站会根据 User-Agent 来判断是否是爬虫，所以设置一个常见的 User-Agent 可以避免被屏蔽。

5. 运行 Spider

现在，你可以运行你的 Spider 了：

scrapy crawl dynamic_spider -o output.json

这将运行 dynamic_spider 并将结果保存到 output.json 文件中。

6. 处理更复杂的动态页面

上面的例子只是一个简单的演示。在实际应用中，你可能需要处理更复杂的动态页面，例如：

需要用户交互的页面： 例如，点击按钮或填写表单后才会加载内容的页面。
使用 AJAX 动态加载内容的页面： 这些页面通常会使用 JavaScript 发送 AJAX 请求来获取数据，然后动态更新页面。

对于这些情况，你可以使用 Splash 的 Lua 脚本来模拟用户交互或等待 AJAX 请求完成。例如，以下 Lua 脚本可以点击一个按钮并等待 2 秒：

function main(splash)
  splash:go(splash.args.url)
  splash:wait(0.5)
  splash:runjs('document.getElementById("myButton").click()')
  splash:wait(2.0)
  return splash:html()
end

然后，你可以将这个 Lua 脚本传递给 SplashRequest：

from scrapy_splash import SplashRequest


def start_requests(self):
    yield SplashRequest(
        url='http://example.com/interactive_page',
        callback=self.parse,
        endpoint='execute',
        args={
            'lua_source': """
            function main(splash)
              splash:go(splash.args.url)
              splash:wait(0.5)
              splash:runjs('document.getElementById("myButton").click()')
              splash:wait(2.0)
              return splash:html()
            end
            """,
        },
    )

代码解释:

endpoint='execute'：这个参数告诉 Splash 执行 Lua 脚本。
args={'lua_source': ...}：这个参数将 Lua 脚本传递给 Splash。
splash:runjs('document.getElementById("myButton").click()'): 使用 JavaScript 模拟点击按钮的操作。

7. 总结与注意事项

通过 Scrapy 和 Splash 的结合，我们可以轻松地抓取动态网页。记住以下几点：

合理设置 wait 参数，确保页面完全加载。
使用 Lua 脚本来模拟用户交互和处理复杂的 AJAX 请求。
注意网站的反爬虫机制，合理设置 User-Agent 和请求频率。
定期检查你的爬虫，确保它们能够正常工作。

动态网页抓取是一个充满挑战但也非常有价值的领域。希望这篇指南能够帮助你入门，并在实际项目中取得成功！祝你玩的开心！还有什么问题，尽管问我吧！