网页通过Ajax数据请求和JavaScript渲染生成，应该如何爬取（以zcool网站为例子）

作者：System 时间：2024年08月17日分类：所有,ajax 字数：1059

这篇文章距离上次修改已过532天，其中的内容可能已经有所变动。

爬取通过Ajax数据请求和JavaScript渲染生成的网页内容时，可以使用JavaScript动态执行和数据提取的工具，如Puppeteer、Selenium、Scrapy-Splash等。以下是使用Puppeteer的一个例子：

安装Puppeteer：




npm install puppeteer

使用Puppeteer爬取zcool网站的代码示例：




const puppeteer = require('puppeteer');
 
async function crawlZcool() {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto('https://www.zcool.com.cn/'); // 替换为目标网站
 
    // 等待数据加载完成，根据实际情况调整选择器和等待时间
    await page.waitForSelector('.work-item', { timeout: 30000 });
 
    // 提取数据
    const data = await page.evaluate(() => {
        const items = Array.from(document.querySelectorAll('.work-item'));
        return items.map(item => ({
            title: item.querySelector('.work-title').textContent.trim(),
            url: item.querySelector('a').getAttribute('href')
            // 根据需要提取更多字段
        }));
    });
 
    console.log(data);
 
    await browser.close();
}
 
crawlZcool();

请注意，对于复杂的动态加载网站，可能需要更多的交互和等待时间处理。此外，确保遵守网站的爬取政策，并且不进行高频率的请求以免造成不必要的负担。

网页通过Ajax数据请求和JavaScript渲染生成，应该如何爬取（以zcool网站为例子）

评论已关闭

推荐阅读