使用Java编写简单爬虫：从概念到实现

作者：System 时间：2024年08月10日分类：所有,爬虫字数：1151

这篇文章距离上次修改已过515天，其中的内容可能已经有所变动。

以下是一个简单的Java网页爬虫示例，使用java.net.HttpURLConnection来获取网页内容。




import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
 
public class SimpleWebCrawler {
 
    public static void main(String[] args) {
        String urlToCrawl = "https://www.example.com";  // 替换为你想爬取的网址
        try {
            URL url = new URL(urlToCrawl);
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            connection.connect();
 
            InputStreamReader inputStreamReader = new InputStreamReader(connection.getInputStream());
            BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
 
            String line;
            while ((line = bufferedReader.readLine()) != null) {
                System.out.println(line);
            }
 
            bufferedReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码创建了一个简单的网页爬虫，它连接到指定的URL，读取网页内容，并打印到控制台。这个例子没有处理更复杂的情况，比如多线程下载、页面解析、重试逻辑、cookie管理、处理重定向等，但它展示了基本的爬虫实现方法。

使用Java编写简单爬虫：从概念到实现

评论已关闭

推荐阅读