- 命令行界面
- 支持输出 DOCX 和 TXT 格式
- 可自定义输出路径
- ...................
有建议或 bug 可以提 issue.
命令行界面使用命令行 UI 库Rich编写。
界面样例:
点击 Code - Download ZIP,下载后解压缩得到文件夹,建议重命名为jjwxc-crawler
- Python 3.9.15
- Windows
安装 Python 后,第一步,打开所在目录的命令行,输入以下命令创建并激活虚拟环境
python -m venv venv # 创建名为venv的Python虚拟环境
venv\Scripts\activate # Windows系统下激活虚拟环境venv
在Linux系统下,
chmod +x venv/bin/activate
source venv/bin/activate
此时命令行前应显示有(venv)
,表示当前已激活虚拟环境venv
第二步,在虚拟环境内安装 Scrapy 和其他依赖
pip install -r requirements.txt
# 进入程序所在目录
cd jjcrawler
# 运行爬虫命令,其中ID为书号
scrapy crawl novel -a id=ID
# 例如,我要下载书号为2的测试文,则运行以下命令行
scrapy crawl novel -a id=2
下载章节将保存至根目录下的 novels 文件夹
默认输出格式为.docx,如果要更改为.txt 格式输出,可编辑\jjcrawler\jjcrawler\spiders\config.py
中参数
# docx | txt
format = "txt"
下载一整页的小说
scrapy crawl novellist -a xx=3 -a sd=4 -a bq=39,45,124,313,314