我尝试从公司的资产负债表/损益表中提取定性数据。它们是 excel(.xls) 文件。
不幸的是,内容结构因一家公司而异。
例如,
提取收入价值:
在 A 公司,它位于“收入”列旁边。
在 B 公司,它位于“商品和销售收入”列的旁边,以千美元/单位列出。
在C公司,情况更糟。您需要查找包含“商品销售收入和”字样的行,然后向下移动包含“提供服务”字样的下一行,将该列旁边的值添加到包含“废品”字样的行中的数据销售”、“汇率收益”和“设备处置收益”。
有 500 多家可用的公司,以及 20 多年的过去数据要提取(内容也可以每年变化),这成为问题。我不知道如何处理每种情况。数据是如此非结构化。
那么,我想问的是那里有没有提取这种模糊信息的库/API(最好是 JAVA)?如果有人已经这样做了,我不想重新发明轮子。是否有任何现成的机器学习 API 可用于此类事情?此外,这些公司并未在美国或其他知名证券交易所上市,因此没有可用的数据提供者。
感谢你的回复。