291351 ssssssss team 1589614030
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
Java
2年多前
471 flashsword20 1578913802
webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
Java
2年前
实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:
Python
6个月前
117 l weiwei 1578913730
强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活
Java
1年多前
429922 mail osc 1578923571
3K
扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
Java
1个月前
666978 xtuhcy 1578930371
Gecco 是一款用java语言开发的轻量化的易用的网络爬虫,整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架。
Java
4年前
117 l weiwei 1578913730
二代蜘蛛侠,此版本完全重新开发,比上一代更加强大(性能,易用,架构,分布式,简洁,成熟)
Java
9个月前
分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等,不详细列举了
Java
5年多前
822
蓝天采集器是一款开源免费的爬虫系统,仅需点选编辑规则即可采集数据,可运行在本地、虚拟主机或云服务器中,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预!是网页大数据采集软件中完全跨平台的云端爬虫系统
PHP
3个月前
786
Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架
Go
4年前
400404 zhiyubujian 1578922729
613
风铃虫是一款轻量级的高效爬虫工具,配置简单,方便二次开发,能抓取js渲染的网页,可以抓取任何数据,支持保存网页快照,智能防封杀,天然适合分布式。
Java
2年多前
13016 dreamidea 1578914880
572
牛咖-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。
NodeJS
7年前
493224 liinux 1596087533
552
专门用来解决爬虫采集相关网站数据时模拟自动登录,验证码自动识别的问题;欢迎加入一起开发完善。
Java
4年多前
5423276 lin zhao quan 1655778434
547
springboot【小说阅读网站】,多线程抓取小说数据(单本或者批量),持久化到MySQL数据库,能定时跟源站数据同步=小说定时更新。通过jsoup采集数据到mysql数据,redis作为缓存框架,减轻服务器压力。部署在linux,网站UI套纵横中文网!
Java
4个月前
550473 ecitlm 1578927357
542
基于node+express爬虫 API接口项目,包括全国高校信息、成语诗歌、星座运势、历史的今天、音乐数据接口、图片壁纸、搞笑视频、热点新闻资讯 详情接口数据
NodeJS
2年前

Search