使用Java编写网络爬虫
以下是一个简单的Java网络爬虫示例,使用java.net.http
包中的HttpClient
类来发送HTTP请求,并使用java.net.http.HttpResponse.BodyHandlers
内的BodyHandler来处理响应体。
import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.net.http.HttpResponse.BodyHandlers;
public class SimpleCrawler {
public static void main(String[] args) throws Exception {
HttpClient client = HttpClient.newHttpClient();
HttpRequest request = HttpRequest.newBuilder()
.uri(new URI("http://example.com"))
.build();
HttpResponse<String> response = client.send(request, BodyHandlers.ofString());
System.out.println(response.body());
}
}
这段代码创建了一个简单的HTTP客户端,构建了一个请求到指定的URI,并发送请求。然后,它打印出从服务器接收到的响应体(页面内容)。这个例子展示了基本的网络爬虫功能,但是实际的爬虫可能需要处理更复杂的情况,比如多线程下载、页面解析、链接跟踪、robots.txt遵守等。
评论已关闭