傻瓜式提取网页数据的油猴脚本（JavaScript 代码）

作者：System 时间：2024年08月26日分类：所有,java 字数：862

这篇文章距离上次修改已过704天，其中的内容可能已经有所变动。

以下是一个简单的JavaScript脚本，用于从网页中提取所有的文本内容。这个脚本会获取页面上所有的文本节点，并将它们拼接成一个字符串。




function extractTextContent(node) {
  var textContent = '';
 
  function getText(node) {
    if (node.nodeType === Node.TEXT_NODE) {
      textContent += node.textContent.trim();
    } else if (node.nodeType === Node.ELEMENT_NODE) {
      var childNodes = node.childNodes;
      for (var i = 0; i < childNodes.length; i++) {
        getText(childNodes[i]);
      }
    }
  }
 
  getText(node);
  return textContent;
}
 
// 使用方法:
// 假设你已经有了一个DOM对象，比如document
var pageText = extractTextContent(document);
console.log(pageText);

这段代码定义了一个extractTextContent函数，它接受一个DOM节点作为参数，并递归地遍历这个节点下的所有子节点，将文本节点的内容拼接起来返回。在实际使用时，你需要确保这段脚本在页面加载完成后执行，例如你可以将它放在一个window.onload事件处理函数中，或者使用现代的方法如document.addEventListener('DOMContentLoaded', function() { /* 脚本内容 */ });。

傻瓜式提取网页数据的油猴脚本（JavaScript 代码）

评论已关闭

推荐阅读