java使用webMagic爬虫
WebMagic是一个开源的Java爬虫框架。以下是一个使用WebMagic的简单示例,用于抓取一个简单的网站并打印出页面的标题。
首先,添加WebMagic的依赖到你的项目中。如果你使用Maven,可以添加如下依赖:
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
然后,创建一个简单的爬虫类:
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class MyPageProcessor implements PageProcessor {
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
@Override
public Site getSite() {
return site;
}
@Override
public void process(Page page) {
// 提取页面中的标题
page.putField("title", page.getHtml().xpath("//h1[@class='title']/text()").toString());
}
public static void main(String[] args) {
Spider.create(new MyPageProcessor())
.addUrl("http://example.com/") // 这里替换成你要爬取的网站
.run();
}
}
这个类实现了PageProcessor
接口,定义了爬取的规则。process
方法中使用XPath选择器提取了页面上特定的标题。main
方法中创建了一个爬虫并开始爬取。
确保你有相应的权限和网络环境允许你访问目标网站。运行这个程序,你将看到控制台输出页面的标题。
评论已关闭