使用PHP解析和处理HTML/XML以创建Web爬虫的示例
<?php
// 引入必要的类文件
require_once('simple_html_dom.php');
// 目标网页URL
$targetUrl = 'http://example.com';
// 使用file_get_html函数从URL获取HTML内容
$html = file_get_html($targetUrl);
// 查找所有的链接并遍历
foreach($html->find('a') as $element) {
// 获取链接地址
$link = $element->href;
// 过滤外部链接,只保留内部链接
if (preg_match('/^\//', $link)) {
// 打印内部链接
echo $link . "<br>";
}
}
// 清理内存中的DOM对象
$html->clear();
unset($html);
?>
这段代码演示了如何使用simple_html_dom
库来解析一个网页中的所有超链接。它首先检索目标URL的HTML内容,然后遍历所有的<a>
元素,并打印出其内部链接。最后,它清理了DOM对象并释放了内存。这是一个简单的Web爬虫示例,展示了如何使用PHP处理HTML内容。
评论已关闭