超简单的node爬虫小案例
// 导入必要的模块
const puppeteer = require('puppeteer');
// 定义一个异步函数,使用Puppeteer进行网页爬取
async function simpleScraper(url) {
// 启动浏览器
const browser = await puppeteer.launch();
// 打开新页面
const page = await browser.newPage();
// 导航到URL
await page.goto(url);
// 等待页面加载完成
await page.waitForSelector('body');
// 提取页面内容
const content = await page.evaluate(() => document.body.innerText);
// 打印页面内容
console.log(content);
// 关闭浏览器
await browser.close();
}
// 使用函数爬取指定的网页
simpleScraper('https://example.com');
这段代码使用了Puppeteer库来创建一个简单的网页爬虫。函数simpleScraper
接收一个URL作为参数,启动一个新的浏览器实例,打开一个新页面,导航到指定的URL,等待页面加载完成,提取页面内容,并在控制台输出页面的纯文本内容。最后关闭浏览器。这个例子展示了如何使用Puppeteer进行基本的网页爬取。
评论已关闭