使用Java编写简单爬虫:从概念到实现
warning:
这篇文章距离上次修改已过196天,其中的内容可能已经有所变动。
以下是一个简单的Java网页爬虫示例,使用java.net.HttpURLConnection
来获取网页内容。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class SimpleWebCrawler {
public static void main(String[] args) {
String urlToCrawl = "https://www.example.com"; // 替换为你想爬取的网址
try {
URL url = new URL(urlToCrawl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setRequestMethod("GET");
connection.connect();
InputStreamReader inputStreamReader = new InputStreamReader(connection.getInputStream());
BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
String line;
while ((line = bufferedReader.readLine()) != null) {
System.out.println(line);
}
bufferedReader.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码创建了一个简单的网页爬虫,它连接到指定的URL,读取网页内容,并打印到控制台。这个例子没有处理更复杂的情况,比如多线程下载、页面解析、重试逻辑、cookie管理、处理重定向等,但它展示了基本的爬虫实现方法。
评论已关闭