我正在尝试使用文本数据进行多类分类。我面临的问题是我有非结构化的文本数据。我会用一个例子来解释这个问题。以这张图片为例:
我想提取和分类图像中给出的文本信息。问题是当我提取信息时,OCR 引擎会给出如下输出:
18
EURO 46
KEEP AWAY
FROM FIRE
MADE IN CHINA
2226249917581
7412501
DOROTHY
PERKINS
现在这里的目标类是:
18 -> size
EURO 46 -> price
KEEP AWAY FROM FIRE -> usage_instructions
MADE IN CHINA -> manufacturing_location
2226249917581 -> product_id
7412501 -> style_id
DOROTHY PERKINS -> brand_name
我面临的问题是输入文本不可分离,这意味着“多行可以属于同一个类”,并且可能存在“单行可以有多个类”的情况。
所以我不知道如何在将行传递给分类模型之前拆分/合并行。
有什么方法可以使用 NLP 我可以根据目标类拆分段落。换句话说,给定的输入段落会根据目标标签对其进行拆分。