傻瓜式提取网页数据的油猴脚本(JavaScript 代码)
以下是一个简单的JavaScript脚本,用于从网页中提取所有的文本内容。这个脚本会获取页面上所有的文本节点,并将它们拼接成一个字符串。
function extractTextContent(node) {
var textContent = '';
function getText(node) {
if (node.nodeType === Node.TEXT_NODE) {
textContent += node.textContent.trim();
} else if (node.nodeType === Node.ELEMENT_NODE) {
var childNodes = node.childNodes;
for (var i = 0; i < childNodes.length; i++) {
getText(childNodes[i]);
}
}
}
getText(node);
return textContent;
}
// 使用方法:
// 假设你已经有了一个DOM对象,比如document
var pageText = extractTextContent(document);
console.log(pageText);
这段代码定义了一个extractTextContent
函数,它接受一个DOM节点作为参数,并递归地遍历这个节点下的所有子节点,将文本节点的内容拼接起来返回。在实际使用时,你需要确保这段脚本在页面加载完成后执行,例如你可以将它放在一个window.onload
事件处理函数中,或者使用现代的方法如document.addEventListener('DOMContentLoaded', function() { /* 脚本内容 */ });
。
评论已关闭