基于nodejs与Selenium&Puppeteer实现爬虫
以下是一个使用Node.js结合Selenium和Puppeteer的简单网页爬虫示例。
使用Selenium的例子:
首先,确保你已经安装了selenium-webdriver
和相应的浏览器驱动程序。
const { Builder } = require('selenium-webdriver');
(async function example() {
let driver = await new Builder().forBrowser('chrome').build();
try {
await driver.get('http://your-target-website.com');
// 这里可以添加你的爬取逻辑,比如分析页面内容
const title = await driver.getTitle();
console.log(`Page title is: ${title}`);
} finally {
await driver.quit();
}
})();
使用Puppeteer的例子:
确保你已经安装了puppeteer
。
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://your-target-website.com');
// 这里可以添加你的爬取逻辑,比如分析页面内容
const title = await page.title();
console.log(`Page title is: ${title}`);
await browser.close();
})();
这两个例子都是打开一个网页,获取标题,然后关闭浏览器。你需要根据实际需求编写爬取逻辑来提取所需数据。
评论已关闭