使用Puppeteer编写爬虫
以下是一个使用Puppeteer编写的简单网页爬虫示例,该爬虫将获取一个网页上的所有图片链接。
const puppeteer = require('puppeteer');
async function crawlImages(url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url);
// 获取页面上的所有图片
const images = await page.$$eval('img', imgs => imgs.map(img => img.src));
console.log(images);
await browser.close();
}
// 使用方法:crawlImages('https://example.com');
这段代码首先引入了Puppeteer,然后定义了一个异步函数crawlImages
,它接受一个URL作为参数。函数启动一个新的浏览器实例和页面实例,导航到指定的URL,然后使用page.$$eval
方法获取页面上所有图片的src
属性,并将它们打印出来。最后,关闭浏览器实例。
要运行这个爬虫,只需要调用crawlImages
函数并传入想要爬取的网页URL。
评论已关闭