我正在使用 OCR 库从图像中提取产品规格。我首先关注的是笔记本。例如:
Processor
Processor model: Intel N3540
Clock speed: 2.16 GHz
Memory
Internal: 4 GB
Hard disk
Capacity: 1 TB
或者:
TOSHIBA
SATELLITE C50-5302
PENTIUM
TOSHIBA
DISPLAY 15.6
4GB
DDR3
500
OCR 并不完美,有时 C10 最终会成为 CIO 和其他类似的东西。
我想提取属性值对,但我不知道如何解决这个问题。
我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量非常有限),然后使用 NLP 库从文本中提取实体。问题还在于有时会出现拼写错误,因此不像比较确切值那么容易。
你会如何处理这个问题?