如何使用 JavaScript 写爬虫程序

作者：System 时间：2024年08月09日分类：所有,爬虫字数：1115

这篇文章距离上次修改已过516天，其中的内容可能已经有所变动。

在JavaScript中编写爬虫程序通常需要使用http或https模块来发起网络请求，以及DOM解析库如jsdom来处理网页内容。以下是一个简单的例子，使用node-fetch和jsdom来创建一个简单的网页爬虫。

首先，你需要安装必要的包：




npm install node-fetch jsdom

然后，你可以使用以下代码来编写一个简单的爬虫程序：




const fetch = require('node-fetch');
const { JSDOM } = require('jsdom');
 
async function fetchAndParse(url) {
  try {
    const response = await fetch(url);
    const data = await response.text();
    const dom = new JSDOM(data);
    return dom.window.document;
  } catch (error) {
    console.error('An error occurred:', error);
  }
}
 
async function crawl(url) {
  const document = await fetchAndParse(url);
  if (document) {
    // 示例：提取所有的链接
    const links = document.querySelectorAll('a');
    links.forEach(link => {
      console.log(link.href);
    });
 
    // 示例：提取页面内容
    const content = document.querySelector('#content');
    console.log(content.textContent);
  }
}
 
// 使用示例
crawl('https://example.com');

这个简单的爬虫程序通过fetchAndParse函数获取网页内容，并使用JSDOM解析。然后你可以在crawl函数中根据需要提取页面中的数据，例如链接、图片、标题等。

请注意，爬虫程序应当遵守robots.txt协议，并在允许的范围内爬取数据，避免对网站的正常运营造成影响。

如何使用 JavaScript 写爬虫程序

评论已关闭

推荐阅读