Jsoup爬虫——自学习梳理

作者：System 时间：2024年08月23日分类：所有,爬虫字数：856

这篇文章距离上次修改已过433天，其中的内容可能已经有所变动。




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
public class JsoupCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为目标网站
        try {
            Document document = Jsoup.connect(url).get();
            Elements elements = document.select("div.class > p"); // 选择想要爬取的元素
 
            for (Element element : elements) {
                System.out.println(element.text()); // 打印元素的文本内容
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用了Jsoup库来实现一个简单的网页爬虫。首先，我们使用Jsoup.connect()方法连接到指定的网址，并使用.get()方法获取该网页的Document对象。然后，我们使用Document对象的select()方法选择我们想要爬取的元素，这里使用的是CSS选择器。最后，我们遍历选择到的元素，并打印它们的文本内容。这个例子展示了如何使用Jsoup库进行基本的网页爬取。

Jsoup爬虫——自学习梳理

评论已关闭

推荐阅读