JSoup爬虫使用详解

作者：System 时间：2024年08月17日分类：所有,爬虫字数：1031

这篇文章距离上次修改已过494天，其中的内容可能已经有所变动。




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
public class JsoupCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为目标网站
        try {
            // 解析URL为Document对象
            Document doc = Jsoup.connect(url).get();
 
            // 使用选择器选择所有的段落
            Elements paragraphs = doc.select("p");
 
            // 遍历段落并打印
            for (Element para : paragraphs) {
                System.out.println(para.text());
            }
 
            // 使用选择器选择所有的链接
            Elements links = doc.select("a[href]");
 
            // 遍历链接并打印
            for (Element link : links) {
                System.out.println("Link: " + link.attr("abs:href") + "\tText: " + link.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了Jsoup库来解析一个给定的URL，并提取了所有的段落文本和完整的链接信息。这是一个简单的网络爬虫示例，展示了如何使用Jsoup进行基本的网页数据抓取。

JSoup爬虫使用详解

评论已关闭

推荐阅读