Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hub 服务运行一段时间后,无故退出 #2289

Open
huye opened this issue Aug 7, 2023 · 4 comments
Open

Hub 服务运行一段时间后,无故退出 #2289

huye opened this issue Aug 7, 2023 · 4 comments
Assignees

Comments

@huye
Copy link

huye commented Aug 7, 2023

本人在 Deepin 20.9 系统中的 Anaconda3-2023.03 虚拟环境 Python 3.9.17 中安装的本 OCR 服务。
其它各种依赖环境/软件等版本如下:
ch_ppocr_mobile_v2.0
ch_PP-OCRv2

paddlepaddle-gpu 2.4.2.post117
paddlehub 2.3.1

Nvidia Driver 535.54.03
CUDA Version 11.7.1

找到一条退出时的日志信息如下:
kernel: traps: hub[197635] general protection fault ip:7ff2a1b149c8 sp:7fff9800e670 error:0 in _multiarray_umath.cpython-39-x86_64-linux-gnu.so[7ff2a1ae8000+36c000]

发生了多次进程退出的情况,其中有一次进程退出后,占用的端口 8866 还在,无法释放,最后只能重启服务器解决。

另外第二种情况:偶尔还会出现 watchdog 错误,报 hard lookup 某个 CPU 内核,然后还有 soft lookup。有时能恢复正常,有时 load average 会越来越高,最后死机。watchdog_thresh 改到最大也没有。

还有第三种情况:有时服务一段时间后进程还在,系统也正常,但是对接口请求没有任何影响。只能停止服务再重新启动。

还有一个问题就是:hubserving 的多进程不能用,只要在配置文件 config.json 中 把 use_multiprocess 改为 true,就不能正常服务器,所有请求都出错。网上说应该是多进程和cuda框架的加载顺序问题,不过对本系统不熟,不清楚如何改。

@736048546
Copy link

你好,请问解决了吗?我的也是运行了大概1周多的时间后,也会停止服务,请求一直超时,但是端口还在,也无法重启服务,只能重启服务器后再启动服务才能正常使用

@huye
Copy link
Author

huye commented Oct 9, 2023

没有解决,随机出现。公司配了几台 GPU 服务器都有一样的问题,还有个其它的深度学习项目,还会引起死机,不管是 windows 还是 linux 系统都试过。但是用烤机软件又屁事没有。感觉这些个使用 GPU 的项目都有奇怪的问题。

@huye
Copy link
Author

huye commented Oct 9, 2023

另外关于 hubserving 的多进程的问题后来发现文档里有写不支持 GPU 版本,那就不纠结这个多进程的问题了。但是其实问题难道就没几个人遇到的吗?

@w5688414
Copy link

w5688414 commented Mar 18, 2024

ocr项目直接使用paddleocr哈,paddlehub已经停止更新了。
https://github.com/PaddlePaddle/PaddleOCR

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants