怎么用JavaScript写爬虫

作者：System 时间：2024年08月23日分类：所有,爬虫字数：950

这篇文章距离上次修改已过512天，其中的内容可能已经有所变动。

写一个简单的JavaScript爬虫通常需要使用axios或node-fetch等库来发送HTTP请求，以及cheerio库来解析返回的HTML内容。以下是一个简单的例子，展示如何使用这些库来抓取一个网页上的图片链接。

首先，确保安装所需的包：




npm install axios cheerio

然后，使用以下代码创建你的爬虫：




const axios = require('axios');
const cheerio = require('cheerio');
 
async function fetchImages(url) {
  try {
    const { data } = await axios.get(url);
    const $ = cheerio.load(data);
    const images = [];
 
    $('img').each((i, img) => {
      const src = $(img).attr('src');
      if (src) {
        images.push(src);
      }
    });
 
    return images;
  } catch (error) {
    console.error('An error occurred:', error);
  }
}
 
// 使用函数
fetchImages('https://example.com').then(images => {
  console.log(images);
});

这个函数fetchImages接收一个URL，发送HTTP GET请求，获取页面内容，然后使用cheerio加载页面数据并遍历所有的<img>标签，收集图片链接，最后返回一个包含所有图片链接的数组。

请注意，实际的网站可能有反爬虫策略，需要处理登录、Cookies、代理、限流等问题，而且在实际应用中需要遵守相关的法律法规，不得滥用网络爬虫对不允许爬取的网站进行数据抓取。

怎么用JavaScript写爬虫

评论已关闭

推荐阅读