爬虫技术探索:利用Java实现简单网络爬虫
以下是一个简单的Java网络爬虫示例,使用了jsoup
库来解析HTML页面。
首先,确保你的项目中包含了jsoup
依赖。如果你使用的是Maven,可以在pom.xml
中添加如下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
以下是爬取网页内容的简单示例代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class SimpleCrawler {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为你想爬取的网站
try {
Document document = Jsoup.connect(url).get();
Elements elements = document.select("title"); // 选择想要获取的HTML标签
for (Element element : elements) {
System.out.println(element.text()); // 打印标签内容
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
这段代码使用了Jsoup.connect
方法来连接网页,并使用select
方法来选择需要解析的HTML元素。在这个例子中,它选择了<title>
标签并打印了它的文本内容。你可以根据需要修改选择器来获取其他任何你想要的数据。
评论已关闭