用Java版本爬虫-WebMagic
warning:
这篇文章距离上次修改已过190天,其中的内容可能已经有所变动。
以下是一个使用WebMagic库编写的Java版简易爬虫示例代码,用于抓取一个简单的网页上的链接和标题。
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class SimpleLinksAndTitlesCrawler implements PageProcessor {
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
@Override
public Site getSite() {
return site;
}
@Override
public void process(Page page) {
// 提取链接和标题
page.putField("title", page.getHtml().xpath("//h1/text()").get());
page.addTargetRequests(page.getHtml().links().regex("http://example.com/.*").all());
}
public static void main(String[] args) {
Spider.create(new SimpleLinksAndTitlesCrawler())
.addUrl("http://example.com")
.thread(5)
.run();
}
}
这段代码定义了一个简单的爬虫,它会从指定的URL开始抓取页面,抓取页面上的标题,并添加该页面的所有链接到爬虫的爬取队列中。它使用XPath表达式来提取页面上的标题,并使用正则表达式来筛选出需要爬取的链接。
请注意,这个例子是为了演示如何使用WebMagic库编写一个简单的网页爬虫。在实际应用中,你需要根据目标网站的实际情况调整XPath表达式、链接筛选等。
评论已关闭