如何结合Node和Puppeteer做网络爬虫
const puppeteer = require('puppeteer');
async function crawlWithPuppeteer(url) {
// 启动浏览器
const browser = await puppeteer.launch();
// 打开新页面
const page = await browser.newPage();
// 导航到URL
await page.goto(url);
// 等待内容加载完成
await page.waitForSelector('body');
// 提取页面标题
const title = await page.title();
console.log('页面标题:', title);
// 关闭浏览器
await browser.close();
}
// 使用方法: crawlWithPuppeteer('https://example.com');
这段代码演示了如何使用Puppeteer启动一个浏览器实例,打开一个新页面,导航到指定的URL,并等待页面加载。然后它提取页面标题并在控制台输出,最后关闭浏览器。这是爬虫过程中的一个基本步骤,可以扩展以抓取更多的数据。
评论已关闭