nlp - 从模糊文本中提取属性值

Question

我正在使用 OCR 库从图像中提取产品规格。我首先关注的是笔记本。例如：

Processor 
Processor model: Intel N3540 
Clock speed: 2.16 GHz 
Memory 
Internal: 4 GB 
Hard disk 
Capacity: 1 TB

或者：

TOSHIBA 
SATELLITE C50-5302 
PENTIUM 
TOSHIBA  
DISPLAY 15.6 
4GB 
DDR3 
500

OCR 并不完美，有时 C10 最终会成为 CIO 和其他类似的东西。

我想提取属性值对，但我不知道如何解决这个问题。

我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件（因为品牌、内存和硬盘容量非常有限），然后使用 NLP 库从文本中提取实体。问题还在于有时会出现拼写错误，因此不像比较确切值那么容易。

你会如何处理这个问题？

score 0 · Accepted Answer

至于拼写错误，我建议，如果可能的话，获得 OCR 系统的模棱两可和概率输出。考虑到您的 CIO 示例，我在图形上比其他字符更接近 1。如果没有这样的输出可用，您可以考虑在字符之间使用某种加权编辑距离。

对于命名实体识别，已经完成了从噪声输入中识别命名实体的工作，主要用于 ASR 源（据我所知）。看看单词混淆网络是如何处理这个问题的，例如这篇文章。

作为最后一步，您可能需要一项联合任务来进行 OCR 校正和命名实体识别。这可能需要定义哪些实体可能适用于您的域：哪些令牌有望描述 CPU 速度、存储容量、计算机品牌等。您可以手动实施规则或从现有数据库中挖掘数据。作为最后一步，您可能必须以某种方式调整预期的 OCR 纠错率，以提取正确的属性值对而不增加误报。

不要犹豫，让我们了解您试验的解决方案！

nlp - 从模糊文本中提取属性值

1 回答 1

Related

Reference