crawlergo

A powerful dynamic crawler for web vulnerability scanners

crawlergo是一个使用chrome headless模式进行URL入口收集的动态爬虫。使用Golang语言开发，基于chromedp 进行一些定制化开发后操纵CDP协议，对整个页面关键点进行HOOK，灵活表单填充提交，完整的事件触发，尽可能的收集网站暴露出的入口。同时，依靠智能URL去重模块，在过滤掉了大多数伪静态URL之后，仍然确保不遗漏关键入口链接，大幅减少重复任务。

crawlergo 目前支持以下特性：

原生浏览器环境，协程池调度任务
表单智能填充、自动化提交
完整DOM事件收集，自动化触发
智能URL去重，去掉大部分的重复请求
全面分析收集，包括javascript文件内容、页面注释、robots.txt文件和常见路径Fuzz
支持Host绑定，自动添加Referer

目前开放编译好的程序给大家使用，该项目属于商业化产品的一部分，代码暂无法开源。

运行截图

安装

安装使用之前，请仔细阅读并确认免责声明。

crawlergo 只依赖chrome运行即可，前往下载新版本的chromium，或者直接点击下载Linux79版本。
前往页面下载最新版本的crawlergo解压到任意目录，如果是linux或者macOS系统，请赋予crawlergo可执行权限(+x)。

如果你使用linux系统，运行时chrome提示缺少一些依赖组件，请看下方 Trouble Shooting

Quick Start

Go！

假设你的chromium安装在 /tmp/chromium/ ，开启最大20标签页，爬取AWVS靶场：

./crawlergo -c /tmp/chromium/chrome -t 20 http://testphp.vulnweb.com/

系统调用

默认打印当前域名请求，但多数情况我们希望调用crawlergo返回的结果，所以设置输出模式为 json，使用python调用并收集结果的示例如下：

#!/usr/bin/python3
# coding: utf-8

import simplejson
import subprocess


def main():
    target = "http://testphp.vulnweb.com/"
    cmd = ["./crawlergo", "-c", "/tmp/chromium/chrome", "-o", "json", target]
    rsp = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    output, error = rsp.communicate()
	#  "--[Mission Complete]--"  是任务结束的分隔字符串
    result = simplejson.loads(output.decode().split("--[Mission Complete]--")[1])
    req_list = result["req_list"]
    print(req_list[0])


if __name__ == '__main__':
    main()

返回结果

当设置输出模式为 json时，返回的结果反序列化之后包含四个部分：

all_req_list：本次爬取任务过程中发现的所有请求，包含其他域名的任何资源类型。
req_list：本次爬取任务的同域名结果，经过伪静态去重，不包含静态资源链接。理论上是 all_req_list 的子集
all_domain_list：发现的所有域名列表。
sub_domain_list：发现的任务目标的子域名列表。

参数说明

crawlergo 拥有灵活的参数配置，以下是详细的选项说明：

--chromium-path Path, -c Path chrome的可执行程序路径
--custom-headers Headers 自定义HTTP头，使用传入json序列化之后的数据，这个是全局定义，将被用于所有请求
--post-data PostData, -d PostData 提供POST数据，目标使用POST请求方法
--max-crawled-count Number, -m Number 爬虫最大任务数量，避免因伪静态造成长时间无意义抓取。
--filter-mode Mode, -f Mode 过滤模式，简单：只过滤静态资源和完全重复的请求。智能：拥有过滤伪静态的能力。严格：更加严格的伪静态过滤规则。
--output-mode value, -o value 结果输出模式，console：打印当前域名结果。json：打印所有结果的json序列化字符串，可直接被反序列化解析。none：不打印输出。
--incognito-context, -i 浏览器启动隐身模式
--max-tab-count Number, -t Number 爬虫同时开启最大标签页，即同时爬取的页面数量。
--fuzz-path 使用常见路径Fuzz目标，获取更多入口。
--robots-path 从robots.txt 文件中解析路径，获取更多入口。
--tab-run-timeout Timeout 单个Tab标签页的最大运行超时。
--wait-dom-content-loaded-timeout Timeout 爬虫等待页面加载完毕的最大超时。
--event-trigger-interval Interval 事件自动触发时的间隔时间，一般用于目标网络缓慢，DOM更新冲突时导致的URL漏抓。
--event-trigger-mode Value 事件自动触发的模式，分为异步和同步，用于DOM更新冲突时导致的URL漏抓。
--before-exit-delay 单个tab标签页任务结束时，延迟退出关闭chrome的时间，用于等待部分DOM更新和XHR请求的发起捕获。
--ignore-url-keywords 不想访问的URL关键字，一般用于在携带Cookie访问时排除注销链接。
--push-to-proxy 拟接收爬虫结果的监听地址，一般为被动扫描器的监听地址。
--push-pool-max 发送爬虫结果到监听地址时的最大并发数。
--log-level 打印日志等级，可选 debug, info, warn, error 和 fatal。

Bypass headless detect

https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html

关于360天相

crawlergo是360天相的子模块，天相是360自研的资产管理与威胁探测系统，主打强大的资产识别能力和全方位分析体系，拥有高效率的扫描能力，核心技术由 360 0KeeTeam 和 360 RedTeam 提供支持。

详情请访问：https://skp.360.cn/

// TODO

支持不同Host的目标输入
支持从文件中读取请求作为输入
输出结果到消息队列

Trouble Shooting

'Fetch.enable' wasn't found

Fetch是新版chrome支持的功能，如果出现此错误，说明你的版本较低，请升级chrome到最新版即可。

chrome运行提示缺少 xxx.so 等依赖

// Ubuntu
apt-get install -yq --no-install-recommends \
     libasound2 libatk1.0-0 libc6 libcairo2 libcups2 libdbus-1-3 \
     libexpat1 libfontconfig1 libgcc1 libgconf-2-4 libgdk-pixbuf2.0-0 libglib2.0-0 libgtk-3-0 libnspr4 \
     libpango-1.0-0 libpangocairo-1.0-0 libstdc++6 libx11-6 libx11-xcb1 libxcb1 \
     libxcursor1 libxdamage1 libxext6 libxfixes3 libxi6 libxrandr2 libxrender1 libxss1 libxtst6 libnss3
     
// CentOS 7
sudo yum install pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x86_64 libXext.x86_64 libXi.x86_64 \
     libXtst.x86_64 cups-libs.x86_64 libXScrnSaver.x86_64 libXrandr.x86_64 GConf2.x86_64 alsa-lib.x86_64 atk.x86_64 gtk3.x86_64 \
     ipa-gothic-fonts xorg-x11-fonts-100dpi xorg-x11-fonts-75dpi xorg-x11-utils xorg-x11-fonts-cyrillic xorg-x11-fonts-Type1 xorg-x11-fonts-misc -y

sudo yum update nss -y

Follow me

如果你有关于动态爬虫的想法，欢迎和我交流。

微博：@9ian1i Github: @9ian1i

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
examples		examples
imgs		imgs
Disclaimer.md		Disclaimer.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

crawlergo

运行截图

安装

Quick Start

Go！

系统调用

返回结果

参数说明

Bypass headless detect

关于360天相

推荐用法

// TODO

Trouble Shooting

Follow me

About

Releases

Packages

License

test2504/crawlergo

Folders and files

Latest commit

History

Repository files navigation

crawlergo

运行截图

安装

Quick Start

Go！

系统调用

返回结果

参数说明

Bypass headless detect

关于360天相

推荐用法

// TODO

Trouble Shooting

Follow me

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages