【Java常用API】简单爬虫练习题
这是一个使用Java网络爬虫API进行简单网页爬取的练习题。以下是一个简单的示例代码,它使用了java.net.http
包中的HttpClient
类来发送HTTP请求,并使用HttpResponse.BodyHandlers
来处理响应体。
import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.nio.charset.StandardCharsets;
public class SimpleCrawler {
public static void main(String[] args) throws Exception {
// 目标网页URL
String url = "http://example.com";
// 创建HttpClient实例
HttpClient client = HttpClient.newHttpClient();
// 创建HttpRequest实例
HttpRequest request = HttpRequest.newBuilder()
.uri(new URI(url))
.GET()
.build();
// 发送请求并接收响应
HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString(StandardCharsets.UTF_8));
// 输出响应体
System.out.println(response.body());
}
}
这段代码会发送一个GET请求到指定的URL,并打印出网页的HTML内容。这是一个非常基础的爬虫示例,实际的爬虫可能需要处理更复杂的情况,比如处理JavaScript渲染的网页、处理登录认证、处理图片、视频等多媒体内容,以及遵守robots.txt协议和网站的爬虫政策。
评论已关闭