java_网路爬虫_1
以下是一个简单的Java网络爬虫示例,使用了Jsoup
库来解析HTML页面。
首先,确保你的项目中包含了Jsoup
依赖。如果你使用的是Maven,可以在pom.xml
中添加如下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
以下是爬取网页内容的示例代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class SimpleWebCrawler {
public static void main(String[] args) {
try {
// 目标网页URL
String url = "http://example.com";
// 使用Jsoup连接到网页
Document doc = Jsoup.connect(url).get();
// 打印网页的HTML内容
System.out.println(doc.html());
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码会连接到指定的URL,获取HTML内容,并打印出来。你可以根据需要解析和提取页面中的数据。
评论已关闭