2

我正在使用 OCR 库从图像中提取产品规格。我首先关注的是笔记本。例如:

Processor 
Processor model: Intel N3540 
Clock speed: 2.16 GHz 
Memory 
Internal: 4 GB 
Hard disk 
Capacity: 1 TB

或者:

TOSHIBA 
SATELLITE C50-5302 
PENTIUM 
TOSHIBA  
DISPLAY 15.6 
4GB 
DDR3 
500 

OCR 并不完美,有时 C10 最终会成为 CIO 和其他类似的东西。

我想提取属性值对,但我不知道如何解决这个问题。

我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量非常有限),然后使用 NLP 库从文本中提取实体。问题还在于有时会出现拼写错误,因此不像比较确切值那么容易。

你会如何处理这个问题?

4

1 回答 1

0

至于拼写错误,我建议,如果可能的话,获得 OCR 系统的模棱两可和概率输出。考虑到您的 CIO 示例,我在图形上比其他字符更接近 1。如果没有这样的输出可用,您可以考虑在字符之间使用某种加权编辑距离。

对于命名实体识别,已经完成了从噪声输入中识别命名实体的工作,主要用于 ASR 源(据我所知)。看看单词混淆网络是如何处理这个问题的,例如这篇文章

作为最后一步,您可能需要一项联合任务来进行 OCR 校正和命名实体识别。这可能需要定义哪些实体可能适用于您的域:哪些令牌有望描述 CPU 速度、存储容量、计算机品牌等。您可以手动实施规则或从现有数据库中挖掘数据。作为最后一步,您可能必须以某种方式调整预期的 OCR 纠错率,以提取正确的属性值对而不增加误报。

不要犹豫,让我们了解您试验的解决方案!

于 2015-10-14T09:05:09.977 回答