webmagic设计思想-在线常用工具

webMagic概览

web magic设计思想 web magic总体架构 web magic项目组成

快速开始

使用maven 第一个爬虫项目

编写基本的爬虫

实现PageProcessor 使用Selectable抽取元素使用Pipeline保存结果爬虫的配置、启动和终止 Jsonp与Xsoup 爬虫的监控配置代理 web magic处理非Get请求

使用注解编写爬虫

编写model类 TargetUrl与HelpUrl 使用ExtractBy进行抽取在类上使用ExtractBy 结果类型的转换完整的爬虫流程 AfterExtractor

组件的使用和定制

使用和定制Pipeline 使用和定制Scheduler 使用和定制Downloader

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。另外WebMagic还包括一些外围扩展和一个正在开发的产品化项目webmagic-avalon。

一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy，而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具，目标就是做一个Java语言Web爬虫的教科书般的实现。

如果你是爬虫开发老手，那么WebMagic会非常容易上手，它几乎使用Java原生的开发方式，只不过提供了一些模块化的约束，封装一些繁琐的操作，并且提供了一些便捷的功能。
如果你是爬虫开发新手，那么使用并了解WebMagic会让你了解爬虫开发的常用模式、工具链、以及一些问题的处理方式。熟练使用之后，相信自己从头开发一个爬虫也不是什么难事。
因为这个目标，WebMagic的核心非常简单——在这里，功能性是要给简单性让步的。

WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成，核心代码非常简单，主要是将这些组件结合并完成多线程的任务。这意味着，在WebMagic中，你基本上可以对爬虫的功能做任何定制。

WebMagic的核心在webmagic-core包中，其他的包你可以理解为对WebMagic的一个扩展——这和作为用户编写一个扩展是没有什么区别的。

虽然核心需要足够简单，但是WebMagic也以扩展的方式，实现了很多可以帮助开发的便捷功能。例如基于注解模式的爬虫开发，以及扩展了XPath语法的Xsoup等。这些功能在WebMagic中是可选的，它们的开发目标，就是让使用者开发爬虫尽可能的简单，尽可能的易维护。

webmagic 设计思想

1. 一个框架，一个领域

2. 微内核和高可扩展性

3. 注重实用性

常用链接

新闻热点