Java网络爬虫实战
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class SimpleWebCrawler {
public static void main(String[] args) {
String url = "https://example.com"; // 替换为你想爬取的网站
try {
Document document = Jsoup.connect(url).get();
Elements elements = document.select("div.post-content"); // 选择你想提取的元素的CSS选择器
for (Element element : elements) {
String content = element.text(); // 提取元素的文本内容
System.out.println(content);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup库来简单地实现了一个网络爬虫的基本功能。它连接到指定的URL,选取页面上的特定元素,并打印出它们的文本内容。这个例子只是一个入门级的爬虫,实际的网络爬虫可能需要处理更复杂的情况,例如处理分页、登录验证、异步下载、处理robots.txt等。
评论已关闭