【高效开发工具系列】Java读取Html
在Java中,可以使用Jsoup
库来读取和解析HTML文档。Jsoup是一款开源的Java库,提供了非常方便的API来进行HTML的解析。
以下是使用Jsoup读取HTML文档的示例代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class HtmlReader {
public static void main(String[] args) {
// 假设我们有一个HTML字符串
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
// 使用Jsoup解析HTML字符串
Document doc = Jsoup.parse(html);
// 获取标题
String title = doc.title();
System.out.println("Title: " + title);
// 获取正文内容
String bodyText = doc.body().text();
System.out.println("Body Text: " + bodyText);
}
}
如果要从一个URL读取HTML,可以使用以下代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class HtmlReaderFromUrl {
public static void main(String[] args) {
try {
// 从URL获取HTML文档
Document doc = Jsoup.connect("http://example.com").get();
// 获取标题
String title = doc.title();
System.out.println("Title: " + title);
// 获取正文内容
String bodyText = doc.body().text();
System.out.println("Body Text: " + bodyText);
} catch (IOException e) {
e.printStackTrace();
}
}
}
在使用这些代码之前,请确保已经将Jsoup库添加到项目的依赖中。如果你使用的是Maven,可以在pom.xml
中添加以下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
如果你使用的是Gradle,可以在build.gradle
中添加以下依赖:
dependencies {
implementation 'org.jsoup:jsoup:1.13.1'
}
请根据需要选择合适的Jsoup版本。
评论已关闭