最全Java 网络爬虫,就是这么的简单_java爬虫,2024年最新面试官特别不礼貌总是打断你
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class JobBoleProcessor implements PageProcessor {
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
@Override
public void process(Page page) {
// 提取数据
page.putField("title", page.getHtml().xpath("//div[@class='article-item-box']/h3/a/text()").all());
page.putField("link", page.getHtml().xpath("//div[@class='article-item-box']/h3/a/@href").all());
page.putField("desc", page.getHtml().xpath("//div[@class='article-item-box']/p/text()").all());
// 提取下一页链接
page.addTargetRequests(page.getHtml().xpath("//div[@class='paging']/a/@href").all());
}
@Override
public Site getSite() {
return site;
}
public static void main(String[] args) {
Spider.create(new JobBoleProcessor())
.addUrl("http://www.jobbole.com/all-posts/")
.thread(5)
.run();
}
}
这段代码使用了WebMagic库来实现一个简单的Java网络爬虫。它爬取了职场角色的文章标题、链接和描述,并且可以跟踪分页。这个示例展示了如何使用XPath选择器来定位HTML中的数据,并且如何使用多线程来提高数据抓取的效率。
评论已关闭