行业洞察 | OCR文字识别技术都有哪些用途

发布时间 : 2022-11-10 阅读量 : 1123

现在连一支笔也卷起来了。

近期，网易有道先后发布了新一代词典笔，此前科大讯飞也发布了智能录音笔。这些科技含量满点的笔不仅可以支持高质量的录音和高效率的文字转写，同时能够识别众多语种和方言，中文在线转写识别率非常高，并支持离线转写等功能。

这些笔还配备文字识别OCR（Optical Character Recognition）摄像头。通过摄像头拍摄所需内容后，可对图像自由进行剪裁，同时帮助提升识别的准确率。通过文字识别技术，进一步拉进与消费者的距离。近年来文字识别也几乎成为了无处不在的便利小帮手。

OCR文字识别的应用场景

1.证件识别：主要识别证件信息，用于身份证、护照、驾驶证等20余种证件识别，目前有证件采集仪、护照阅读器、门禁考勤机、人证一体扫描仪、移动端证件识别。

2.银行卡识别：主要识别银行卡卡号，用于移动支付绑卡，提升APP用户体验。支持国内各个银行的信用卡、储蓄卡等识别。

3.车牌识别：主要识别车牌号码、颜色、类型、车标、车身颜色等车辆特征信息，用于移动警务，占道停车，停车场管理，车险等领域。

4.名片识别：主要识别名片内容，用于移动展业、CRM客户管理系统等领域，支持各种板式的各种名片，还支持多语种名片识别。

5.营业执照识别：主要识别营业执照信息，用于需要代替人工提取营业执照信息的领域。

6.汽车VIN码识别：主要识别车架号（汽车VIN码），用于汽车管理、汽车服务、二手车交易、租车等领域。

7.票据类识别：主要识别增值税发票等不同格式的票据内容，用于财务管理、汽车、银行、金融等领域。

8.文档文字识别：主要识别文档文字，用于图书馆、报社等针对图书、报纸、杂志等文本类，及其他需要将纸质文档进行电子化的领域。

OCR文字识别的应用难点

通常来说，证件类文字识别相对较为简单，其次是通用文档和自然场景的文字识别，最后是通用表格类的文字识别。

相对来讲，证件证类图像各项约束更多，或者说问题空间更小。比如身份证的“性别”一栏，只有 “男”或者“女” 两种可能性。在版面上，目前以二代身份证为主，版式单一、字体确定，文字识别正确率更高。

但也存在着识别的难点，比如在识别人名和地名的时候，最大的风险是用户隐私，以及数据合规的问题。为此就需要数据合成，但如何更好的合成对模型有效的数据？数据的合成不好就会导致显示不正确，识别率下降。

通用文档它的难点在于如何很好的结构化。如简历识别。想象各种各样的版式，但是键值对几乎是可以枚举的。完全给你纯文本版的简历，利用 N;P 做好各类样式适配的结构化都应该不太简单，更何况是非文字版。

自然场景的难点在于，背景的复杂多样、字体五花八门、遮挡、光照、多尺度以及如何大批量快速训练，而现在的自然场景，还有一个特点就是目标文字区域附近会有噪音（比如：楼牌附近都是广告），使得目标信息解析结构化也是痛点难点。

表格识别最难，因为表格之间风格的高度相似和单元格推理的极度易错（对于多行密集型，基本上一行出错，全表完蛋），同时无边框的表格推理识别更难。

OCR文字识别数据资源稀缺

俗话说“人类的物质需求的是促进生产力发展的动力”，上述这些落地场景促进者OCR技术的快速发展。

目前，深度学习算法成为了OCR为题的SOTA方案。当前深度学习OCR算法均采用上述的两阶段模式：文本检测+文本识别。这些深度学习算法需要大量的数据训练，数据永远是深度学习算法取得卓越效果的前提。

但是由于场景数据不易获取，很多生活场景数据具有隐私性，标注困难且需要专业团队清洗、标注。数据的稀缺对于OCR技术的落地和发展具有阻碍性。因此工程师们更需要借助专业的数据公司的力量，取得更多精标的OCR图像数据，从而加速科研进程和技术落地的可能性。

Magic Data提供的数据服务均符合ISO/IEC 27001和ISO/IEC 27701标准认证，同时自研Annotator平台能够通过人机协同对音频、文本、图像、音视频多模态等数据进行高精度标注，并可以根据企业需求进行私有化部署，受到全球 200 多家顶级 AI 公司的信赖。

了解更多详情 www.magicdatatech.cn

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

行业洞察 | OCR文字识别技术都有哪些用途

OCR文字识别的应用场景

OCR文字识别的应用难点

OCR文字识别数据资源稀缺

即刻与 Magic Data 建立联系？