Java中使用Jsoup实现网页内容爬取与Html内容解析并使用EasyExcel实现导出为Excel文件
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import com.alibaba.excel.EasyExcel;
import java.io.File;
import java.util.ArrayList;
import java.util.List;
public class WebCrawler {
public static void main(String[] args) {
String url = "http://example.com"; // 替换为目标网页地址
Document doc = null;
try {
doc = Jsoup.connect(url).get();
} catch (Exception e) {
e.printStackTrace();
}
// 使用Jsoup解析网页
Elements elements = doc.select("div.item"); // 根据实际HTML结构选择合适的CSS选择器
List<Item> itemList = new ArrayList<>();
for (Element element : elements) {
Item item = new Item();
item.setName(element.select("h3").text());
item.setDescription(element.select("p").text());
// 根据实际HTML结构选择合适的CSS选择器填充数据
itemList.add(item);
}
// 使用EasyExcel将数据写入Excel文件
String fileName = "output.xlsx";
try {
EasyExcel.write(fileName, Item.class).sheet("Sheet1").doWrite(itemList);
} catch (Exception e) {
e.printStackTrace();
}
}
static class Item {
private String name;
private String description;
// 省略getter和setter方法
public void setName(String name) {
this.name = name;
}
public void setDescription(String description) {
this.description = description;
}
}
}
这段代码展示了如何使用Jsoup库来爬取一个网页的内容,并使用EasyExcel库将爬取的数据导出为Excel文件的基本步骤。在实际应用中,你需要替换url
变量的值为你要爬取的目标网页,并根据目标网页的HTML结构调整doc.select()
方法中的CSS选择器。同时,Item
类应包含对应于你想要抓取的数据的字段和相应的getter和setter方法。
评论已关闭