crawler

Web crawler based on Puppeteer

Install

npm install @opd/crawler

Use

import Crawler from '@opd/crawler'
// or commonjs
const Crawler = require('@opd/crawler').default

const crawler = new Crawler(options)

API

`new Crawler(options)`

create crawler instance

options: crawler instance config

parallel: maximum number of crawlers, default is 5
pageEvaluate: evaluate function on current page, see Puppeteer, cannot support extra args now

`crawler.launch([options])`

launch browser use puppeteer.launch

`crawler.queue(urls)`

add urls to crawler queue

Note: check url strictly, means url must start with https?

`crawler.start([urls]): PageResult[]`

start crawl page, if urls is presented, will call crawler.queue firstly.

const result = await crawler.start()
console.log(result)

// [
//   {
//     url, // page url
//     result // crawled result
//   }
// ]

Note: if you call start before launch, browser will also be launched, but with no extra launch options

Name		Name	Last commit message	Last commit date
Latest commit History 286 Commits
.github		.github
src		src
test		test
.editorconfig		.editorconfig
.gitignore		.gitignore
.prettierignore		.prettierignore
LICENSE		LICENSE
README.md		README.md
azure-pipelines.yml		azure-pipelines.yml
package-lock.json		package-lock.json
package.json		package.json
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

crawler

Install

Use

API

`new Crawler(options)`

`crawler.launch([options])`

`crawler.queue(urls)`

`crawler.start([urls]): PageResult[]`

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 3

Uh oh!

Languages

License

open-data-plan/crawler

Folders and files

Latest commit

History

Repository files navigation

crawler

Install

Use

API

new Crawler(options)

crawler.launch([options])

crawler.queue(urls)

crawler.start([urls]): PageResult[]

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Languages

`new Crawler(options)`

`crawler.launch([options])`

`crawler.queue(urls)`

`crawler.start([urls]): PageResult[]`

Packages