package
0.0.0-20200613035304-c4769b55a45c
Repository: https://github.com/safeie/spider.git
Documentation: pkg.go.dev

# Functions

FilterGroupDefault 默认过滤组,包含多个过滤器,脚本,样式表,注释,空白.
FilterRemoveA 过滤器,删除所有A链接.
FilterRemoveBlank 过滤器,过滤空行和文本两头的空白.
FilterRemoveImgage 过滤器,删除所有图片.
FilterRemoveNote 过滤器,删除注释.
FilterRemoveScript 过滤器,删除内容中的 script脚本.
FilterRemoveStyle 过滤器,删除style样式表.
FilterRemoveXMLCDATA 过滤器,删除XML CDATA标记.
NewField 创建一个新字段.
NewRemote 创建一个新的远程获取.
NewURI 创建一个新的URI结构.
NewURL 创建一个新的URL实例.

# Constants

json path匹配.
正则表达式.
html Selector匹配.
字符串截取.
PageTypeHTML 页面类型,HTML网页.
PageTypeJSON 页面类型,JSON数据.
PageTypeText 页面类型,纯文本.
URL附件字段.
当前内容.

# Structs

Field 字段.
Remote 远程字段 远程URL,有一个变量即使当前字段的值,使用 {{.}} 做占位符表示 -- 如果URL就是该字段的值本身,那么 url={{.}}.
URI 是URL的组成单元,不直接使用string的原因是可以附加数据.
URL URL组件 * URL包含两种URL: * initURL 即入口URL,会无条件提取整个页面上的URL添加到待处理列表 * ruleURL,处理过程中产生的 规则URL,这些URL要经过规则处理,不符合规则的被丢弃 */.

# Type aliases

FieldFilterFunc 字段过滤方法.
URLinitFunc URL初试化函数.