0

上下文是我已将不同形式的“化学内容”提取到自由文本中。

最终目标是将提取的文件组织到结构化数据库中,如下所示: 最终结构化数据

但问题是提取的文本文件有不同的格式:一些化学和相应的值逐行排列(这很好) 很好的例子

有些是按列(我想还不错) 不太好但还可以

有些也是这样(这有点头疼): 头痛示例

所以我的问题是:除了定义所有可能的模板来阅读这些提取的文本之外,关于如何更有效地阅读和组织提取的文本到结构化数据库中的任何建议(如我在开头所展示的)?

我对文本处理真的很陌生,所以任何帮助都将不胜感激。

4

0 回答 0