亚马逊通过AI改善对弯曲文本的识别准确率--RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展

OCR（光学字符识别）将手写或印刷的图像转换为信息文本的技术，可以追溯到上世纪70年代初。不过随着科技的进步以及企业对OCR的需求越来越多样化，亚马逊的研究人员为了改善OCR算法和弯曲文本的识别准确率，开发了一款名为Text Tubes的智能工具。它可以快速识别自然图像中弯曲文本的信息，并在OCR的基准上达到更理想的识别效果。

通常识别场景文本时分为两个连续的任务：文本检测与文本识别；第一个任务通过使用上下文关系来定位字符、单词和行；而第二个任务主要用来转录其识别的内容。这两项任务说起来非常容易，但是对于计算机来说却非常的困难。因为这涉及到变形、视点变化和任意字体的影响。

亚马逊的解决方案是利用文本参考框架的“形状”来捕获大多数文本的可变性。同时利用目标文本的大小，来还原识别文本的“形体”。与易于重叠和容易产生噪声的矩形和四边形来捕获文本信息的传统方法相比，亚马逊的方法将显得更加高效和智能。

研究人员在CTW-1500上评估了Text Tubes的性能，该数据集从自然场景和图像库中收集了1,500张图像，超过10,000个文本实例（每个图像至少一个弯曲实例）组成，并在Total-Text上进行了测试。Total-Text包含大约1,255次训练图像和300个测试图像以及一个或多个弯曲文本实例。测试报告显示，Text Tubes在CTW-1500上以83.65％的准确度取得了行业领先的水平，而传统OCR准确度为75.6％。

目前Text Tubes还处于测试阶段，如果该技术正式投入使用，这对于那些高度依赖OCR开展业务的企业来说，将是一个好消息。有数据统计，纸张业务仍占80％以上的数字业务流程，大约97％的小企业仍使用纸质支票。

继续阅读：亚马逊 AI 弯曲文本