又一冠军技术，让小图、糊图、复杂图都能被看清

原创 iFLYTEK 科大讯飞 2021-12-16 17:42

图像识别技术再夺冠！

在2021年轻量级文字识别技术创新大赛（Lightweight Optical Character Recognition, 简称LOCR）中，科大讯飞以复杂自然场景83.29%的整句正确率，取得第一名。

这是科大讯飞继在ICPR 2018 MTWI图文识别挑战赛上获得三项冠军、ICDAR 2019 CROHME数学公式识别挑战赛上获得两项冠军、ICFHR 2020 OffRaSHME数学公式识别挑战赛上获得冠军后，在文字识别方向上所取得的又一佳绩。

什么是LOCR？

别急，让我们先从OCR开始。

O Optical 光学

C Character 字符

R Recognition 识别

就是将图像转换为文字的技术。这项技术我们介绍过很多次，生活中早已随处可见，讯飞输入法的手写输入、讯飞双屏翻译机的拍照识图、科大讯飞AI学习机试卷扫描功能运用的都是OCR。

讯飞翻译笔S10扫描识别功能演示

目前讯飞产品中所搭载的OCR技术，是讯飞AI研究院研发的基于深度神经网络模型端到端文字识别系统，识别文字符号的数字影像，并将其转换为对应的数字文本，最终达到识别的文字结果可编辑、可处理的目的。

那么OCR前面加一个L，有什么不同呢？

LOCR就是Lightweight OCR轻量级光学字符识别。它并不是单独的技术点，而是轻量化的OCR技术。

相较于OCR，LOCR在终端设备内部计算，所以即使断网也可以使用，又因为模型小，推理速度也相对变快，显著降低了响应时间和成本，大大提升使用体验。仅用2.4M参数量，就达到复杂自然场景83.29%的整句正确率。

要知道2.4M，还没有我们手机拍摄的一张照片大。

可是，模型大小一缩再缩，会不会影响到识别效果呢？

答案是：不会。

这就需要强调此次比赛面临的两个难点：

因此面对以上技术难点：

首先，针对LOCR任务中对模型参数量的强硬限制指标，ECSR创新性提出了神经网络共享参数池的新方法，实现了神经网络参数上的跨层离散共享，并端到端训练和优化，在参数量减少4倍的情况下效果无损；
其次，针对行文本识别这一序列识别任务，ECSR采用了CTC-ED联合建模以及区分性训练技术，进一步提升了2%以上的整句识别率；
最后，针对轻量化模型的训练和收敛，科大讯飞还提出了多阶段渐进式训练和数据增强课程学习等方法，极大提升了轻量化模型的最终识别效果。

这么专业复杂的术语不懂没关系，简而言之，就是这一系列创新可以在识别模型被缩小的情况下，识别效果无损，还能让识别效果大大提升。

像这样的