-4

我有两个数据集。一份是合同细节,另一份是组织细节。例如:一个数据集有详细信息——公司名称、描述、公司类型。其他数据集有详细信息——合同名称、合同描述、CPV 代码。我想要一种算法,它可以 1) 给定一家公司,我们能否找到与该公司最密切相关或可能感兴趣的前 10 份合同。2. 或者给定一份合同,我们能否找到最有可能投标或赢得合同的公司。这可能是一种一次性的实时算法,用于将第一个数据集的一行匹配到第二个数据集中的最佳匹配集群。是否可以在两个不同的数据集中进行这种逐行交叉匹配?是否可以使用文本描述进行这种匹配?如果有人有代码示例,那将有很大帮助。谢谢你。

公司资料

合同数据

4

1 回答 1

2

您的问题实际上是“有人会免费为我做价值约 10K 的数据科学吗?” 您正在寻找的是一个推荐系统,更具体地说,它似乎是一个基于内容的过滤系统。为了使这些工作,您将不得不查看您的两个数据集并开发可用于定量描述合同和客户的功能。如果您有组织感兴趣的以前合同的信息,您可以使用包含协同过滤各个方面的混合算法。

R 有一个包推荐实验室,可以帮助您解决这些类型的问题。我没用过,但是浏览了一下,感觉还不错。如果您想要更多即插即用的东西,但选项更少,我建议您查看AzureML。它使用 GUI 界面来帮助引导用户完成数据科学过程,包括推荐教程。您还可以使用他们的一些文本分类器教程来帮助从包含自由格式文本的字段中设计特征。

祝你好运。

于 2016-08-17T18:05:32.577 回答