webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
webmagic的主要特色:
完全模块化的设计,强大的可扩展性。
核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
提供丰富的抽取页面API。
无配置,但是可通过POJO+注解形式实现一个爬虫。
支持多线程。
支持分布式。
支持爬取js动态渲染的页面。
无框架依赖,可以灵活的嵌入到项目中去。
webmagic的架构和设计参考了以下两个项目,感谢以下两个项目的作者:
python爬虫 scrapy https://github.com/scrapy/scrapy
Java爬虫 Spiderman http://git.oschina.net/l-weiwei/spiderman
webmagic的github地址:https://github.com/code4craft/webmagic。
用户评论