Java开发网络爬虫:教你如何自动化抓取网页数据
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class WebCrawlerExample {
public static void main(String[] args) {
// 目标网页URL
String url = "http://example.com";
// 使用Jsoup连接网页
try {
Document doc = Jsoup.connect(url).get();
// 打印网页的标题
String title = doc.title();
System.out.println("网页标题: " + title);
// 打印网页的内容
String content = doc.body().text();
System.out.println("网页内容: \n" + content);
// 查找所有的链接并打印
for (String link : doc.select("a[href]").eachAttr("href")) {
System.out.println("链接: " + link);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup库来抓取指定网页的数据。首先,它连接到了一个网页,然后获取了网页的标题和内容,并打印出来。此外,它还遍历了所有的超链接,并打印出链接地址。这个例子展示了如何使用Java进行基本的网络爬虫操作。
评论已关闭