scrapy

学习和使用scrapy,简单快速写出自己的爬虫程序.

常用命令备注

# 这将在该project_dir目录下创建一个Scrapy项目。
# 如果project_dir没有指定，project_dir将会和myproject名称一样。
scrapy startproject myproject [ project_dir ]
cd project_dir
# 创建一个新的爬虫
scrapy genspider mydomain mydomain.com
# 列出所有spider
scrapy list
# 运行spider
scrapy crawl fang

Scrapy shell 调试代码

学习如何使用Scrapy提取数据的最好方法是尝试使用shell Scrapy shell的选择器。

scrapy shell 'http://quotes.toscrape.com/page/1/'

# CSS选择元素
response.css('title')
response.css('title::text').extract()
response.css('title').extract()
response.css('title::text').extract_first()
response.css('title::text')[0].extract()
# re()方法使用正则表达式提取
response.css('title::text').re(r'Quotes.*')
response.css('title::text').re(r'Q\w+')
response.css('title::text').re(r'(\w+) to (\w+)')
# XPath选择元素
response.xpath('//title')

tesseract

apt install tesseract-ocr
brew install tesseract

pip3 install pytesseract
pip3 install pillow
pip install PIL

目录结构说明

.
├── README.md
├── docker  # docker环境部署
├── main.py # 启动类
├── out     # 文件输出目录
├── requirements.txt # 依赖包
├── scrapy.cfg # 项目结构配置
├── sqls    # sql初始化文件
└── src # 源代码地址
    ├── __init__.py
    ├── configs # 自定义配置文件
    ├── items   # 自定义数据类
    ├── middlewares # 自定义中间件
    ├── pipelines # 自定义管道处理
    ├── spiders # 自定义爬虫类
    ├── test    # 测试用例
    ├── utils # 工具类
    └── settings.py # 项目通用配置

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

scrapy

常用命令备注

Scrapy shell 调试代码

tesseract

目录结构说明

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
docker		docker
out		out
sqls		sqls
src		src
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

darebeat/scrapy_tutorial

Folders and files

Latest commit

History

Repository files navigation

scrapy

常用命令备注

Scrapy shell 调试代码

tesseract

目录结构说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages