将通用数量转换为数值:(在编辑中添加)
您需要某种方法来从数据中获取质量指标(“好”的度量),并将其中很多东西转换为数字量。可能的指标可能是完成任务的时间(与初始估计相比,看看他们是否对此撒谎)、成本、成本与报价成本(检查他们是否给你真实的报价),以及某种与客户满意度相关的综合体到他们从事的项目。
先前合同的区域/区域可以编码为 GPS 坐标,其中 X,Y 为给定交易的区域中心(即“加利福尼亚”或“美国”以及该区域的宽度-x、宽度-y(误差范围). 要查看地理位置是否重要,您可以在新合同的给定距离内找到所有先前的业务(简单形式:只需检查所有先前交易的距离,具有大量数据的复杂形式:某种聚类算法或 3-d表面提取)。
然后,您对(先前业务交易的质量指标)进行加权平均,减去(当前期望的交易位置与先前的交易位置之间的距离)。复杂,但它会为您提供区域业务指标。
分析数据以提取意义
我建议您将数据转换为标准的 CSV 元组(公司 id、地区代码/坐标、帐户规模、绩效指标),然后进行统计回归和数值分析技术。你的目标是用一组方程描述公司在每个特征方面的表现。 主成分分析可以通过识别公司绩效的最重要特征来简化此过程。
软件选择:
老实说,这种分析完全是统计或数据挖掘软件的领域,而不是 SQL 分析引擎,因为它们是纯粹的统计和数学。如果您的指标和特征是数字的并且可以清楚地量化,那么 R、Matlab、Mathematica 等都是不错的选择。如果您的数据集非常大,您将希望投资于您可以获得的最强大的软件包。
挑选最佳候选公司:简单案例
将业务分配给最佳候选人的问题是一个经典的优化问题。如果变量和性能之间的关系是线性的,那么您就有了一个非常方便的案例。 线性规划技术旨在优化解决这类问题(假设您可以提取关系)。
挑选最佳候选公司:复杂案例
如果性能与特性方程是非线性的,则需要模糊逻辑来找到最佳解决方案。当有很多变量时,这将使用非常非常先进的算法来为业务找到一个非常好的(不一定是最好的)解决方案。根据经验,Mathematica 有一套一流的优化工具(基于遗传算法)用于非线性优化,Matlab 也有用于解决该问题的模糊逻辑/遗传算法。如需更多工具,请查看“全局非线性优化”。