Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

javdb刮削失败,指定网站和单个文件刮削都不行 #65

Closed
3 tasks done
Lsw999160 opened this issue Jan 26, 2024 · 10 comments
Closed
3 tasks done

javdb刮削失败,指定网站和单个文件刮削都不行 #65

Lsw999160 opened this issue Jan 26, 2024 · 10 comments
Labels
usage 软件使用相关疑问 / question about app usage

Comments

@Lsw999160
Copy link

在提问之前...

  • 我已经搜索了现有的 issues
  • 我在提问题之前至少花费了 5 分钟来思考和准备
  • 我正在使用最新版本

描述你的问题

使用javdb网站刮削失败,失败原因如下
失败原因: 请求错误: https://javdb.com/search?q=OTAT-008&locale=zh
Error: Failed to perform, ErrCode: 28, Reason: 'Failed to connect to javdb.com port 443 after 21056 ms: Timed out'. This may be a libcurl error, See https://curl.se/libcurl/c/libcurl-errors.html first for more details.

如何复现

  1. 前往 '...'
  2. 点击 '....'
  3. 滑动到 '....'
  4. 出现问题

预期行为

No response

相关 Logs

失败原因: 请求错误: https://javdb.com/search?q=OTAT-008&locale=zh
Error: Failed to perform, ErrCode: 28, Reason: 'Failed to connect to javdb.com port 443 after 21056 ms: Timed out'. This may be a libcurl error, See https://curl.se/libcurl/c/libcurl-errors.html first for more details.

截图

No response

还有别的吗?

No response

@sqzw-x
Copy link
Owner

sqzw-x commented Jan 27, 2024

#14
一般来说是网络问题

@sqzw-x sqzw-x added the usage 软件使用相关疑问 / question about app usage label Jan 27, 2024
@Lsw999160
Copy link
Author

但是在网络连接测试中是正常连接的呀,使用网页打开JavDB也正常

@sqzw-x
Copy link
Owner

sqzw-x commented Jan 27, 2024

网络测试用的不是同一个网络请求库,应该是库的问题
我不知道原作者为什么用这个库,总之很不稳定,但是也没办法了

@toobigpao
Copy link

但是在网络连接测试中是正常连接的呀,使用网页打开JavDB也正常

同样情况,亲测23年3月老版本可以正常刮削javdb

@sqzw-x
Copy link
Owner

sqzw-x commented Feb 7, 2024

#14 (comment)

@Oman4
Copy link

Oman4 commented Feb 12, 2024

原版的刮削时间较久,发现虽然有报ErrCode: 28,但是还是可以在其他网站刮削。
我尝试将刮削的py里面的curl_html改为get_html,并导入get_html,发现并未出现问题,而且刮削流畅。

@Oman4
Copy link

Oman4 commented Feb 12, 2024

curl_cffi
https://github.com/yifeikong/curl_cffi/blob/main/README-zh.md

关于这个curl_cffi,作者描述是为了替换httpx 和 requests,解决被网站封锁的问题。具体尚未了解其原理和作用,有issus指出可能会有timeout的问题

lexiforest/curl_cffi#106

@sqzw-x
Copy link
Owner

sqzw-x commented Feb 14, 2024

curl_cffi
yifeikong/curl_cffi@main/README-zh.md

关于这个curl_cffi,作者描述是为了替换httpx 和 requests,解决被网站封锁的问题。具体尚未了解其原理和作用,有issus指出可能会有timeout的问题

yifeikong/curl_cffi#106

这个库是通过伪造 chrome 的 tls 指纹以绕过 cf 防护,但是实现方式是通过 cffi 调用修改过的 curl,因为无法直接调试 curl c 代码,所以排查问题比较困难
get_html 是普通的 requests 请求,如果网站防护严格一定会被识别,所以能不能访问看运气了

@perkfly
Copy link

perkfly commented Feb 23, 2024

尝试下切换到 http/1.1 是否能解决问题呢?requests 是只支持 1.1 的,也有可能是这个问题。

@sqzw-x
Copy link
Owner

sqzw-x commented Feb 23, 2024

尝试下切换到 http/1.1 是否能解决问题呢?requests 是只支持 1.1 的,也有可能是这个问题。

最大的问题是我无法复现此情况,所以没法排查,此库在我本地运行正常。
另外上面这些报告均是 0.5.10 版本的,更换 0.6.0b9 后暂时还没有报告

@sqzw-x sqzw-x closed this as completed Mar 2, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
usage 软件使用相关疑问 / question about app usage
Projects
None yet
Development

No branches or pull requests

5 participants