WebMagic一个灵活的Java网页爬虫框架


2023-06-06 20:01:20 •  213次阅读    评论
这是一个由开源分享家,转载的作品信息,您可以通过本页信息及教程所示,来了解和使用这个作品! 
WebMagic一个灵活的Java网页爬虫框架
开发语言:JAVA
操作系统: Web端
使用说明:

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。

webmagic的主要特色:

  • 完全模块化的设计,强大的可扩展性。

  • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。

  • 提供丰富的抽取页面API。

  • 无配置,但是可通过POJO+注解形式实现一个爬虫。

  • 支持多线程。

  • 支持分布式。

  • 支持爬取js动态渲染的页面。

  • 无框架依赖,可以灵活的嵌入到项目中去。

webmagic的架构和设计参考了以下两个项目,感谢以下两个项目的作者:

python爬虫 scrapy https://github.com/scrapy/scrapy

Java爬虫 Spiderman http://git.oschina.net/l-weiwei/spiderman

webmagic的github地址:https://github.com/code4craft/webmagic

我也想创建自己的作品主页,了解创建和发布作品的方法 <- go! 

用户评论

开源分享家

该作品的相关教程
该作品暂时没有相关可用教程 您可以选择贡献 +[协助补充]
有穹平台赞助商
暂无赞助商,如需成为赞助商可点击 此链接 了解。