文字识别的正确率很低 #41

lingyezhixing · 2024-05-10T02:51:27Z

lingyezhixing
May 10, 2024

试用了混合识别，但没有一张图片能够正确识别，文字的加入甚至导致公式识别正确率大幅下滑，请问是否应该放弃使用多模型合作，而是将文字识别和公式识别训练为一个模型？

OleehyO · 2024-05-10T04:46:02Z

分阶段识别比端到端识别需要的数据和计算资源会少很多，所以后续应该还是会使用其它仓库的文字OCR模型+TexTeller来做混合识别。

目前混合识别还处于测试阶段，因为使用混合识别后需要对原先的识别模型做一些调整，再加上目前使用的文字OCR模块(surya)在某些中文场景下会有一些问题（后续应该会考虑换成PaddleOCR），所以整体来看混合识别的效果还没有做的很好。

大概6月初会发布一个新版的识别模型，届时应该会解决目前阶段混合识别的问题，可以关注一下。

0 replies