PixivCrawler

这是一个插画网站pixiv的爬虫程序, 采用Java语言编写.

支持爬取每日排行榜, 男/女热门排行榜, 新人排行榜, 原创作品排行榜和其子分类, 包括R18模式.

特性

支持爬取各种排行榜
支持代理
YAML格式的配置文件
采用SQLite数据库记录已经爬取过的图片, 确保图片不重复下载

用到的第三方库

启动

事前准备: 安装好Java运行环境; 一个能查看cookie的浏览器 (这里以Chrome为例); 一个能访问pixiv的网络环境, 或者一个能访问pixiv的代理; 一个pixiv账号;

打开Chrome浏览器
访问www.pixiv.net, 并登录
按下F12调出调试界面, 在界面的右上角找到并选中Application, 如果没有看见请点击旁边的">>"
在左侧选中Cookies-https://www.pixiv.net 你将会看到一个表格, 这个就是cookies
复制PHPSESSID的值备用
运行一次程序, 将自动生成配置文件, 打开它
在代理设置 (proxy) 中, 设置好主机 (host) 和端口 (port)
将刚刚复制到的cookie粘贴至cookie下
在startpage下设置一个你喜欢的页面作为开始爬取的页面
通过命令或附带的启动脚本 (run.bat/run.sh) 运行程序, 开始爬取图片吧

配置文件示例:

#代理设置, 如果无需使用代理请用两个单引号''表示留空
proxy:
  host: '127.0.0.1'
  port: '10809'

#找到www.pixiv.net网站cookie中'PHPSESSID'键的值填入此项
cookie: 'YOUR-COOKIE-HERE'

#爬虫程序运行时, 将使用此页面作为开始页面
#爬虫程序会在运行时，不断写入此项，以便于下次运行时接着爬取
startpage: 'https://www.pixiv.net/ranking.php?mode=male'

#图片文件的储存路径, %HERE%会被程序自动替换成jar文件所在的文件夹
imagesavepath: '%HERE%/Crawled'

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
META-INF		META-INF
resources		resources
src/moe/feo/pixivcrawler		src/moe/feo/pixivcrawler
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PixivCrawler

特性

用到的第三方库

启动

配置文件示例:

About

Releases 2

Packages

Contributors 3

Languages

License

R-Josef/PixivCrawler

Folders and files

Latest commit

History

Repository files navigation

PixivCrawler

特性

用到的第三方库

启动

配置文件示例:

About

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 3

Languages

Packages