java_网路爬虫_1

作者：System 时间：2024年08月08日分类：所有,爬虫字数：794

这篇文章距离上次修改已过450天，其中的内容可能已经有所变动。

以下是一个简单的Java网络爬虫示例，使用了Jsoup库来解析HTML页面。

首先，确保你的项目中包含了Jsoup依赖。如果你使用的是Maven，可以在pom.xml中添加如下依赖：




<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

以下是爬取网页内容的示例代码：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class SimpleWebCrawler {
    public static void main(String[] args) {
        try {
            // 目标网页URL
            String url = "http://example.com";
            // 使用Jsoup连接到网页
            Document doc = Jsoup.connect(url).get();
            // 打印网页的HTML内容
            System.out.println(doc.html());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码会连接到指定的URL，获取HTML内容，并打印出来。你可以根据需要解析和提取页面中的数据。

java_网路爬虫_1

评论已关闭

推荐阅读