JSoup爬虫使用详解
warning:
这篇文章距离上次修改已过188天,其中的内容可能已经有所变动。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupCrawlerExample {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为目标网站
try {
// 解析URL为Document对象
Document doc = Jsoup.connect(url).get();
// 使用选择器选择所有的段落
Elements paragraphs = doc.select("p");
// 遍历段落并打印
for (Element para : paragraphs) {
System.out.println(para.text());
}
// 使用选择器选择所有的链接
Elements links = doc.select("a[href]");
// 遍历链接并打印
for (Element link : links) {
System.out.println("Link: " + link.attr("abs:href") + "\tText: " + link.text());
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup库来解析一个给定的URL,并提取了所有的段落文本和完整的链接信息。这是一个简单的网络爬虫示例,展示了如何使用Jsoup进行基本的网页数据抓取。
评论已关闭