爬虫入门案例——Java还能用来写爬虫？

作者：System 时间：2024年08月17日分类：所有,爬虫字数：821

这篇文章距离上次修改已过691天，其中的内容可能已经有所变动。

Java 当然可以用来写爬虫。这里提供一个简单的 Java 爬虫示例，使用的是 jsoup 库来解析 HTML 内容。

首先，你需要添加 jsoup 依赖到你的项目中。如果你使用 Maven，可以在 pom.xml 中添加如下依赖：




<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

以下是一个简单的 Java 爬虫示例，它抓取一个网页的标题：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class SimpleCrawler {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为你想抓取的网页
        try {
            Document doc = Jsoup.connect(url).get();
            String title = doc.title();
            System.out.println("Title of page: " + title);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

确保你有合适的权限和网络环境来运行这段代码，并且遵循相关网站的 Robots 协议，尊重网站的爬虫政策。

爬虫入门案例——Java还能用来写爬虫？

评论已关闭

推荐阅读