Java:爬虫htmlunit抓取a标签
warning:
这篇文章距离上次修改已过201天,其中的内容可能已经有所变动。
以下是使用HtmlUnit库在Java中抓取a标签的示例代码:
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import java.io.IOException;
import java.util.List;
public class HtmlUnitExample {
public static void main(String[] args) {
// 创建WebClient实例
try (WebClient webClient = new WebClient()) {
// 设置webClient属性,模拟浏览器
webClient.getOptions().setCssEnabled(false); // 禁用CSS
webClient.getOptions().setJavaScriptEnabled(false); // 禁用JavaScript
// 获取网页
HtmlPage page = webClient.getPage("http://example.com");
// 获取所有a标签
List<HtmlAnchor> anchors = page.getAnchors();
// 遍历并打印a标签的HREF属性
for (HtmlAnchor anchor : anchors) {
System.out.println(anchor.getHrefAttribute());
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
确保你的项目中已经添加了HtmlUnit依赖。如果你使用Maven,可以在pom.xml
中添加如下依赖:
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.48.0</version> <!-- 请检查最新版本 -->
</dependency>
请根据实际需要修改网页URL和HtmlUnit版本。
评论已关闭