crawler

example of usage:

./scripts/venv ./crawler.py --parallel=16 http://yandex.ru/
./scripts/venv ./crawler.py --parallel=16 http://google.ru/
./scripts/venv ./crawler.py --parallel=16 http://htmlbook.ru/
./scripts/venv ./crawler.py --parallel=16 http://habrahabr.ru/

потраченное время

6 часа 30 минут

постановка задачи

Реализовать web-crawler, рекурсивно скачивающий сайт (идущий по ссылкам вглубь). Crawler должен скачать документ по указанному URL и продолжить закачку по ссылкам, находящимся в документе.

Crawler должен поддерживать дозакачку.
Crawler должен грузить только текстовые документы - html, css, js (игнорировать картинки, видео, и пр.)
Crawler должен грузить документы только одного домена (игнорировать сторонние ссылки)
Crawler должен быть многопоточным (какие именно части параллелить - полностью ваше решение)

Требования специально даны неформально. Мы ходим увидеть, как вы по постановке задаче самостоятельно примете решение, что более важно, а что менее.

На выходе мы ожидаем работающее приложение, которое сможем собрать и запустить. Мы не ожидаем правильной обработки всех типов ошибок и граничных случаев, вы сами себе должны поставить отсечку "good enough".

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
scripts		scripts
.gitignore		.gitignore
Makefile		Makefile
README.md		README.md
crawler.py		crawler.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

crawler

потраченное время

постановка задачи

About

Releases

Packages

Languages

excavador/crawler

Folders and files

Latest commit

History

Repository files navigation

crawler

потраченное время

постановка задачи

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages