当普通爬虫遇到动态加载的网页时，往往只能获取到空壳HTML。Selenium通过模拟真实浏览器环境，能完整渲染JavaScript生成的内容。2019年W3Techs统计显示，全球前1000万网站中87.6%使用JavaScript，其中Ajax异步加载已成为主流技术方案。

核心痛点：Ajax内容加载的三种典型场景

滚动加载：像微博、知乎这类信息流页面
点击展开：商品详情中的"查看更多"按钮
定时刷新：股票行情或体育比分实时更新

去年我们团队测试发现，某电商平台60%的关键数据都通过Ajax请求获取，传统爬虫根本无法触及这些内容。

实战代码：等待策略的黄金组合

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# 显式等待+条件触发
wait = WebDriverWait(driver, 15)
element = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".dynamic-content")))

# 滚动到元素可见位置
driver.execute_script("arguments[0].scrollIntoView();", element)

# 处理延迟加载的终极方案
last_height = driver.execute_script("return document.body.scrollHeight")
while True:
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)  # 必须的缓冲时间
    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

五大翻车现场与避坑指南

元素定位失效：改用相对XPath如//div[contains(@class,'list-item')]替代绝对路径
随机超时：设置复合等待条件，比如元素可见且可点击
iframe陷阱：务必先driver.switch_to.frame()切换上下文
反爬检测：调整options.add_argument("--disable-blink-features=AutomationControlled")
内存泄漏：定期driver.quit()而非close()彻底释放资源

性能优化三板斧

启用无头模式：options.add_argument("--headless")节省40%资源
禁用图片加载：prefs = {"profile.managed_default_content_settings.images": 2}
使用CDN缓存：配置driver.set_network_conditions()模拟3G网络

某次爬取任务优化前后对比：从单机每小时处理200页提升到1500页，成功率从72%提高到98%。

高阶技巧：破解动态参数

当遇到__VIEWSTATE这类每次请求变化的参数时，可以：

先获取页面初始源码
用BeautifulSoup解析出隐藏字段
构造下一次请求的payload

soup = BeautifulSoup(driver.page_source, 'html.parser')
token = soup.find('input', {'name': 'csrf_token'})['value']

法律红线警示

虽然技术无罪，但务必注意：

遵守robots.txt协议
设置合理爬取间隔（建议≥3秒）
禁止绕过付费墙
用户数据必须脱敏处理

最近某公司因爬取频率过高（200次/秒）被判赔偿230万元，这个教训值得警惕。

Selenium抓取动态网页数据的实战技巧，如何应对Ajax加载内容