-1

我尝试从公司的资产负债表/损益表中提取定性数据。它们是 excel(.xls) 文件。

不幸的是,内容结构因一家公司而异。

例如,

提取收入价值:

在 A 公司,它位于“收入”列旁边。

在 B 公司,它位于“商品和销售收入”列的旁边,以千美元/单位列出。

在C公司,情况更糟。您需要查找包含“商品销售收入和”字样的行,然后向下移动包含“提供服务”字样的下一行,将该列旁边的值添加到包含“废品”字样的行中的数据销售”、“汇率收益”和“设备处置收益”。

有 500 多家可用的公司,以及 20 多年的过去数据要提取(内容也可以每年变化),这成为问题。我不知道如何处理每种情况。数据是如此非结构化。

那么,我想问的是那里有没有提取这种模糊信息的库/API(最好是 JAVA)?如果有人已经这样做了,我不想重新发明轮子。是否有任何现成的机器学习 API 可用于此类事情?此外,这些公司并未在美国或其他知名证券交易所上市,因此没有可用的数据提供者。

感谢你的回复。

4

2 回答 2

0

坏消息:我很确定没有这样的库/API,因为你想要的东西太复杂了,而且(至少现在)不能自动完成,特别是在像 C 这样的情况下:有太多特定于域的很难编码的语义。

好消息:我认为 80/20 规则对于您的情况仍然适用 - 大多数表具有清晰的结构,如 A 或 B,您可以编写简单的脚本来为它们提取值,而其他的则必须手动完成。我建议逐步开发此类脚本:从案例 A 开始,然后为所有表启动程序。对于失败的表,选择最简单的情况并为它们调整代码;等等。我相信这种方式是最快的,虽然不是那么令人兴奋。

本文描述了一种更有趣的方法,用于从表格中半自动提取所需信息(对不起,自引用)。不幸的是,没有可用的库或 API,但我猜这个想法相当简单并且可以轻松编码。

于 2015-03-22T18:14:18.080 回答
0

公司通常以基于 XML 的称为XBRL的计算机可读格式提供这些信息。这种格式允许您以编程方式提取您正在谈论的语义信息。由于与 XML 相关,规范自然非常密集,但信息就在那里。

作为一个随机的例子,埃克森美孚在其投资者网站上免费发布了他们的数据。

于 2015-09-29T04:47:32.257 回答