三分钟学会用Java写一个简单的网络爬虫
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class SimpleCrawler {
public static void main(String[] args) throws Exception {
String url = "http://example.com"; // 替换为你想爬取的网站
HttpURLConnection connection = (HttpURLConnection) new URL(url).openConnection();
connection.setRequestMethod("GET");
try (BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()))) {
String inputLine;
StringBuilder content = new StringBuilder();
while ((inputLine = in.readLine()) != null) {
content.append(inputLine);
}
System.out.println("网页内容: \n" + content.toString());
}
}
}
这段代码使用了java.net
包中的HttpURLConnection
类来发送一个HTTP GET请求到指定的URL,并读取返回的响应内容。然后将内容输出到控制台。这是一个非常基础的网络爬虫示例,仅适用于简单的文本内容爬取。对于更复杂的网站,可能需要处理JavaScript渲染的内容、处理Cookies、处理重定向、处理Ajax请求等。
评论已关闭