webmagic 使用ExtractBy进行抽取-在线常用工具

webMagic概览

web magic设计思想 web magic总体架构 web magic项目组成

快速开始

使用maven 第一个爬虫项目

编写基本的爬虫

实现PageProcessor 使用Selectable抽取元素使用Pipeline保存结果爬虫的配置、启动和终止 Jsonp与Xsoup 爬虫的监控配置代理 web magic处理非Get请求

使用注解编写爬虫

编写model类 TargetUrl与HelpUrl 使用ExtractBy进行抽取在类上使用ExtractBy 结果类型的转换完整的爬虫流程 AfterExtractor

组件的使用和定制

使用和定制Pipeline 使用和定制Scheduler 使用和定制Downloader

@ExtractBy是一个用于抽取元素的注解，它描述了一种抽取规则。

@ExtractBy注解主要作用于字段，它表示“使用这个抽取规则，将抽取到的结果保存到这个字段中”。例如：

@ExtractBy("//div[@id='readme']/text()")
private String readme;

这里"//div[@id='readme']/text()"是一个XPath表示的抽取规则，而抽取到的结果则会保存到readme字段中。

除了XPath，我们还可以使用其他抽取方式来进行抽取，包括CSS选择器、正则表达式和JsonPath，在注解中指明type之后即可。

@ExtractBy(value = "div.BlogContent", type = ExtractBy.Type.Css)
private String content;

@ExtractBy包含一个notNull属性，如果熟悉mysql的同学一定能明白它的意思：此字段不允许为空。如果为空，这条抽取到的结果会被丢弃。对于一些页面的关键性属性（例如文章的标题等），设置notnull为true，可以有效的过滤掉无用的页面。

notNull默认为false。

multi是一个boolean属性，它表示这条抽取规则是对应多条记录还是单条记录。对应的，这个字段必须为java.util.List类型。在0.4.3之后，当字段为List类型时，这个属性会自动为true，无须再设置。

@ComboExtract是一个比较复杂的注解，它可以将多个抽取规则进行组合，组合方式包括"AND/OR"两种方式。
在WebMagic 0.4.3版本中使用了Xsoup 0.2.0版本。在这个版本，XPath支持的语法大大加强了，不但支持XPath和正则表达式组合使用，还支持“|”进行或运算。所以作者认为，ComboExtract这种复杂的组合方式，已经不再需要了。

@ExtractByUrl是一个单独的注解，它的意思是“从URL中进行抽取”。它只支持正则表达式作为抽取规则。

webmagic 使用ExtractBy进行抽取

初识ExtractBy注解

使用其他抽取方式

notnull

multi（已废弃）

ComboExtract（已废弃）

ExtractByUrl

常用链接

新闻热点