Jsoup 网路爬虫 实战使用
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupCrawlerExample {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为目标网站
try {
Document document = Jsoup.connect(url).get();
Elements elements = document.select("div.article > p"); // 选择文章段落
for (Element element : elements) {
System.out.println(element.text()); // 打印段落文本
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup库来从指定的网站上抓取HTML内容,并使用CSS选择器查找所有class为"article"的div下的段落,然后打印出每个段落的文本内容。这是一个简单的网络爬虫实战示例,展示了如何使用Jsoup库进行基本的网页解析和数据抓取。
评论已关闭