2

我正在实施一个工具来比较 2 个市场数据源,以便向我的老板证明新开发源的质量(意味着没有回归、没有错过更新或错误),并证明延迟改进。

所以我需要的工具必须能够检查更新差异以及判断哪个源是最好的(就延迟而言)。

具体来说,参考来源可能是路透社,而另一个是我们内部开发的 Feed 处理程序。人们警告我,更新可能不会按照路透社的实施顺序与我们的完全不同。因此,基于更新可能以相同顺序到达这一事实的简单算法可能不起作用。

我的第一个想法是使用指纹来比较提要来源,就像 Shazaam 应用程序查找您提交的管的标题一样。谷歌告诉我它是基于 FFT 的。我想知道信号处理理论是否可以在市场准入应用程序中表现良好。

我想知道你自己在那个领域的经验,有没有可能开发出一个相当准确的算法来满足需求?你自己的想法是什么?您如何看待基于指纹的比较?

4

2 回答 2

1

如果提供数据的交换具有它提供的数据的一些唯一标识符,那么实现是相当简单的,但不是微不足道的。

本质上,您有一个订阅这两个提要的应用程序。(您也可以使用基于嗅探的软件来进行非侵入式监控/测量 - 我也可以尝试解决这个问题)

您将保留两个不匹配数据/更新的列表(或任何其他方法来记录每个提要中的“不匹配”样本)。随着每次更新的到来,您从另一个数据馈送中寻找另一个列表中的相应项目。成功匹配后,您可以保存此配对。当每次更新出现时,您必须以某种方式为其分配一个“时间戳”——可能是本地机器时间。由于在这种简单情况下的来源是相同的交换,因此确定相对延迟相当容易。

此方法需要为数据编写订阅应用程序。

有很多问题,例如处理丢失的更新和超时不匹配的数据,如何处理可能无法为更新提供独特 ide 的交换或提要,解决数据供应商错误 WRT 本地时间与 UTC 时间等。

嗅探数据是类似的,但您将通过 pcap 或硬件捕获卡捕获数据,然后根据数据包的端点解析流。这比直接订阅要困难一些,但具有非侵入性且相当灵活的优势,您可以测量哪些数据集。

于 2010-05-25T15:35:25.657 回答
0

我见过的一种围绕多个企业行为数据来源的提要的方法是简单地维护一种启发式方法,根据哪些提要在历史上往往最准确,从而赋予其数据更大的权重。

当然,在所有类型的市场数据中,公司行为可能是数量最少的数据之一,因此这种技术可能无法扩展到刻度数据!

于 2010-02-11T13:02:32.650 回答