java Spring Boot2.7实现一个简单的爬虫功能
以下是一个简单的Java Spring Boot应用程序,用于爬取一个网站的链接并打印出来。这个例子使用了Jsoup
库来简化HTML解析的过程。
首先,你需要添加Jsoup的依赖到你的pom.xml
文件中:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
然后,你可以创建一个简单的Spring Boot应用程序来实现这个爬虫:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
@SpringBootApplication
public class SimpleCrawlerApplication {
public static void main(String[] args) {
SpringApplication.run(SimpleCrawlerApplication.class, args);
crawlWebsite("http://example.com");
}
public static void crawlWebsite(String url) {
try {
Document document = Jsoup.connect(url).get();
Elements links = document.select("a[href]");
System.out.println("\nLinks found on the page:");
for (Element link : links) {
System.out.println(link.attr("abs:href"));
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
这个应用程序启动后会连接到指定的URL,解析HTML,并打印出所有找到的链接。这个例子仅用于教学目的,实际的爬虫可能需要考虑更复杂的情况,如处理分页、登录验证、爬取策略、并发等。
评论已关闭