js玩儿爬虫
在JavaScript中编写一个简单的爬虫通常需要使用axios
或request
等库来发送HTTP请求,以及cheerio
来解析返回的HTML内容。以下是一个简单的示例,用于抓取一个网页上的所有链接。
首先,确保安装所需的包:
npm install axios cheerio
然后,编写爬虫代码:
const axios = require('axios');
const cheerio = require('cheerio');
const url = 'http://example.com'; // 替换为你想爬取的网站
axios.get(url).then(response => {
const $ = cheerio.load(response.data);
$('a').each((i, link) => {
const href = $(link).attr('href');
console.log(href);
});
}).catch(error => {
console.error('Error fetching the webpage:', error);
});
这段代码会输出从指定网页上抓取的所有链接。你可以根据需要修改选择器,以抓取不同的数据,例如图片、标题等。
请注意,爬虫应该遵守robots.txt
协议,并在允许的范围内爬取数据,避免对网站造成过大压力或违反版权法律。
评论已关闭