Jsoup爬虫——自学习梳理
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupCrawlerExample {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为目标网站
try {
Document document = Jsoup.connect(url).get();
Elements elements = document.select("div.class > p"); // 选择想要爬取的元素
for (Element element : elements) {
System.out.println(element.text()); // 打印元素的文本内容
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup库来实现一个简单的网页爬虫。首先,我们使用Jsoup.connect()
方法连接到指定的网址,并使用.get()
方法获取该网页的Document
对象。然后,我们使用Document
对象的select()
方法选择我们想要爬取的元素,这里使用的是CSS选择器。最后,我们遍历选择到的元素,并打印它们的文本内容。这个例子展示了如何使用Jsoup库进行基本的网页爬取。
评论已关闭