import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class SimpleCrawlerExample {
public static void main(String[] args) {
String url = "https://www.example.com"; // 替换为你想爬取的网站
try {
Document doc = Jsoup.connect(url).get();
String title = doc.title();
String bodyText = doc.body().text();
System.out.println("网页标题:" + title);
System.out.println("网页内容:\n" + bodyText);
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了jsoup库来简单实现一个网络爬虫的例子。它连接到指定的URL,获取页面的标题和文本内容,并打印出来。这个例子只是展示了如何使用jsoup库进行基本的网页爬取,并没有处理更复杂的逻辑,如处理JavaScript渲染的页面、多页面爬取、处理重复爬取、网络请求限制等。