nodejs爬虫 测试 modi
在Node.js中编写一个简单的爬虫来测试模块modi
可以使用axios
来发送HTTP请求,以及cheerio
来解析返回的HTML内容。以下是一个简单的示例:
首先,确保安装所需的模块:
npm install axios cheerio
然后,编写爬虫代码:
const axios = require('axios');
const cheerio = require('cheerio');
async function fetchHTML(url) {
try {
const { data } = await axios.get(url);
return data;
} catch (error) {
console.error('Error fetching HTML:', error);
}
}
async function crawl(url) {
try {
const html = await fetchHTML(url);
if (html) {
const $ = cheerio.load(html);
// 这里可以编写你想要爬取的逻辑,例如提取页面上的某些数据
// 例如提取页面标题
const title = $('title').text();
console.log(title);
}
} catch (error) {
console.error('Crawling error:', error);
}
}
// 测试爬虫
crawl('http://example.com');
这段代码首先定义了一个异步函数fetchHTML
来获取指定URL的HTML内容,然后定义了crawl
函数来爬取页面上的数据。在crawl
函数中,使用cheerio.load
解析HTML,并可以进一步提取所需的数据。
请注意,爬虫应当遵守robots.txt的规定,并在使用时尊重网站的版权及隐私政策。上述代码仅为示例,实际使用时需要根据目标网站的HTML结构和需要爬取的数据进行相应的调整。
评论已关闭