Java 爬虫爬取网页的标题以及其他主体内容
以下是一个简单的Java爬虫示例,使用Jsoup库来解析网页并获取其标题和主体内容。
首先,确保你的项目中包含了Jsoup库。如果使用Maven,可以在pom.xml
中添加以下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
以下是一个简单的Java爬虫示例代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class WebCrawlerExample {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为你想爬取的网页地址
try {
Document doc = Jsoup.connect(url).get();
String title = doc.title(); // 获取网页标题
String bodyText = doc.body().text(); // 获取网页主体文本
System.out.println("Title: " + title);
System.out.println("Body Text: " + bodyText);
} catch (Exception e) {
e.printStackTrace();
}
}
}
这段代码会连接到指定的URL,解析HTML内容,并提取标题和主体文本。你可以将http://example.com
替换为任何你想要爬取的网页地址。记得处理可能出现的异常。
评论已关闭