【Java常用API】简单爬虫练习题

作者：System 时间：2024年08月14日分类：所有,爬虫字数：1083

这篇文章距离上次修改已过692天，其中的内容可能已经有所变动。

这是一个使用Java网络爬虫API进行简单网页爬取的练习题。以下是一个简单的示例代码，它使用了java.net.http包中的HttpClient类来发送HTTP请求，并使用HttpResponse.BodyHandlers来处理响应体。




import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.nio.charset.StandardCharsets;
 
public class SimpleCrawler {
    public static void main(String[] args) throws Exception {
        // 目标网页URL
        String url = "http://example.com";
 
        // 创建HttpClient实例
        HttpClient client = HttpClient.newHttpClient();
 
        // 创建HttpRequest实例
        HttpRequest request = HttpRequest.newBuilder()
                .uri(new URI(url))
                .GET()
                .build();
 
        // 发送请求并接收响应
        HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString(StandardCharsets.UTF_8));
 
        // 输出响应体
        System.out.println(response.body());
    }
}

这段代码会发送一个GET请求到指定的URL，并打印出网页的HTML内容。这是一个非常基础的爬虫示例，实际的爬虫可能需要处理更复杂的情况，比如处理JavaScript渲染的网页、处理登录认证、处理图片、视频等多媒体内容，以及遵守robots.txt协议和网站的爬虫政策。

【Java常用API】简单爬虫练习题

评论已关闭

推荐阅读