又一冠军技术,让小图、糊图、复杂图都能被看清

iFLYTEK 科大讯飞 2021-12-16 17:42

图像识别技术再夺冠图片图片图片

在2021年轻量级文字识别技术创新大赛(Lightweight Optical Character Recognition, 简称LOCR)中,科大讯飞以复杂自然场景83.29%的整句正确率,取得第一名。


图片


这是科大讯飞继在ICPR 2018 MTWI图文识别挑战赛上获得三项冠军、ICDAR 2019 CROHME数学公式识别挑战赛上获得两项冠军、ICFHR 2020 OffRaSHME数学公式识别挑战赛上获得冠军后,在文字识别方向上所取得的又一佳绩。

 

图片

什么是LOCR?


别急,让我们先从OCR开始。

 

O  Optical  光学

C  Character  字符

R  Recognition  识别

 

就是将图像转换为文字的技术。这项技术我们介绍过很多次,生活中早已随处可见,讯飞输入法的手写输入、讯飞双屏翻译机的拍照识图、科大讯飞AI学习机试卷扫描功能运用的都是OCR。


图片

 讯飞翻译笔S10扫描识别功能演示


目前讯飞产品中所搭载的OCR技术,是讯飞AI研究院研发的基于深度神经网络模型端到端文字识别系统,识别文字符号的数字影像,并将其转换为对应的数字文本,最终达到识别的文字结果可编辑、可处理的目的。

 

图片

那么OCR前面加一个L,有什么不同呢?

 

LOCR就是Lightweight OCR轻量级光学字符识别。它并不是单独的技术点,而是轻量化的OCR技术。

 

相较于OCR,LOCR在终端设备内部计算,所以即使断网也可以使用,又因为模型小,推理速度也相对变快,显著降低了响应时间和成本,大大提升使用体验。仅用2.4M参数量,就达到复杂自然场景83.29%的整句正确率。

 

要知道2.4M,还没有我们手机拍摄的一张照片大。

 

可是,模型大小一缩再缩,会不会影响到识别效果呢?

答案是:不会。


这就需要强调此次比赛面临的两个难点:


  • 轻量化模型:考虑识别模型在各类设备的可部署性,模型大小必须严格限制在10M以内;

  • 多样化场景:任务涵盖了日常街景、文档、手写等多类场景,同时这些场景的书写方向、遮挡、艺术字等问题也让识别更加复杂。


因此面对以上技术难点:


  • 首先,针对LOCR任务中对模型参数量的强硬限制指标,ECSR创新性提出了神经网络共享参数池的新方法,实现了神经网络参数上的跨层离散共享,并端到端训练和优化,在参数量减少4倍的情况下效果无损;

  • 其次,针对行文本识别这一序列识别任务,ECSR采用了CTC-ED联合建模以及区分性训练技术,进一步提升了2%以上的整句识别率;

  • 最后,针对轻量化模型的训练和收敛,科大讯飞还提出了多阶段渐进式训练和数据增强课程学习等方法,极大提升了轻量化模型的最终识别效果。

 

这么专业复杂的术语不懂没关系,简而言之,就是这一系列创新可以在识别模型被缩小的情况下,识别效果无损,还能让识别效果大大提升。

 

像这样的

图片

这样的

图片

这样的

图片

LOCR比赛测试样例

别问,问就是都能够准确识别图片


上视频,直观了解一下图片


科大讯飞
又双叒叕拿下了? 来看2021年 LOCR大赛科大讯飞夺冠!

图片

LOCR离你有多近


只要处于未联网状态,讯飞翻译机所调用的OCR服务、讯飞智能办公本的行写、自由写等功能、讯飞智慧窗中的中英、拼音手写、讯飞翻译笔中的扫描识别技术等均为本地轻量化OCR。


而这项技术均已搭载了获奖的ECSR模型中的轻量化算法,逐渐实践应用在讯飞系产品中。借助ECSR中的轻量化算法,许多AI能力无需上云,在保证效果的同时,可以在本地设备上快速完成运算,就是这样一个创新,让文字识别更加高效和便捷。

 

图片

讯飞智慧屏LOCR技术展示


也就是说,如果你的身边有讯飞翻译笔,或者讯飞智能办公本,哪怕是讯飞输入法APP,都可以来体验一下LOCR技术的强大之处。

 

最后,如果条件允许的话,大家可以来分享一下使用这项功能的感受,或者对于这项技术有什么感想,我们将在12月23日评论区抽取5位留言送出讯飞定制礼品一份!


再次向大家安利讯飞之前在视觉识别领域的获奖情况!感兴趣大家可以一直戳戳戳图片~


喜报 | 科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军

科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

科大讯飞获得 ICFHR 2020 数学公式识别挑战赛冠军!