怎么用JavaScript写爬虫
写一个简单的JavaScript爬虫通常需要使用axios
或node-fetch
等库来发送HTTP请求,以及cheerio
库来解析返回的HTML内容。以下是一个简单的例子,展示如何使用这些库来抓取一个网页上的图片链接。
首先,确保安装所需的包:
npm install axios cheerio
然后,使用以下代码创建你的爬虫:
const axios = require('axios');
const cheerio = require('cheerio');
async function fetchImages(url) {
try {
const { data } = await axios.get(url);
const $ = cheerio.load(data);
const images = [];
$('img').each((i, img) => {
const src = $(img).attr('src');
if (src) {
images.push(src);
}
});
return images;
} catch (error) {
console.error('An error occurred:', error);
}
}
// 使用函数
fetchImages('https://example.com').then(images => {
console.log(images);
});
这个函数fetchImages
接收一个URL,发送HTTP GET请求,获取页面内容,然后使用cheerio
加载页面数据并遍历所有的<img>
标签,收集图片链接,最后返回一个包含所有图片链接的数组。
请注意,实际的网站可能有反爬虫策略,需要处理登录、Cookies、代理、限流等问题,而且在实际应用中需要遵守相关的法律法规,不得滥用网络爬虫对不允许爬取的网站进行数据抓取。
评论已关闭