用Java版本爬虫-WebMagic

作者：System 时间：2024年08月16日分类：所有,爬虫字数：1097

这篇文章距离上次修改已过690天，其中的内容可能已经有所变动。

以下是一个使用WebMagic库编写的Java版简易爬虫示例代码，用于抓取一个简单的网页上的链接和标题。




import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
 
public class SimpleLinksAndTitlesCrawler implements PageProcessor {
 
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
 
    @Override
    public Site getSite() {
        return site;
    }
 
    @Override
    public void process(Page page) {
        // 提取链接和标题
        page.putField("title", page.getHtml().xpath("//h1/text()").get());
        page.addTargetRequests(page.getHtml().links().regex("http://example.com/.*").all());
    }
 
    public static void main(String[] args) {
        Spider.create(new SimpleLinksAndTitlesCrawler())
                .addUrl("http://example.com")
                .thread(5)
                .run();
    }
}

这段代码定义了一个简单的爬虫，它会从指定的URL开始抓取页面，抓取页面上的标题，并添加该页面的所有链接到爬虫的爬取队列中。它使用XPath表达式来提取页面上的标题，并使用正则表达式来筛选出需要爬取的链接。

请注意，这个例子是为了演示如何使用WebMagic库编写一个简单的网页爬虫。在实际应用中，你需要根据目标网站的实际情况调整XPath表达式、链接筛选等。

用Java版本爬虫-WebMagic

评论已关闭

推荐阅读