mmocr - 开源项目导航网开源项目导航网

图片处理大模型

mmocr

链接直达手机查看

mmocr是一个开源的多模态OCR工具包，用于处理多模态（如图像、文本、语音等）的光学字符识别任务。它基于深度学习技术，提供了一系列强大的OCR模型和工具，可以用于图像中的文字检测、文字识别和文本方向检测等任务。

mmocr是由OpenMMLab团队开发和维护的一个项目。OpenMMLab是一个专注于计算机视觉领域的开源项目组织，致力于推动计算机视觉技术的研究和应用。拥有着强大的功能但该项目对新手不是很友好，笔者曾经使用过几个OpenMMLab下的计算机视觉项目，其环境安装配置部分较为麻烦，需要安装mmcv-full、Visual Studio Community 2019、CUDA、cuDNN等进行环境配置。

环境没问题之后可以通过gitclone获取整个开源项目，有提供一些可供测试的图片，其测试结果也较为准确，对一些扭曲变形的文字也有较为不错的效果。

相关导航

发表回复取消回复

相关导航

发表回复 取消回复

发表回复取消回复