0

我有一个可能与数据分析甚至神经网络有关的任务。

我们有合作伙伴的数据源,工作门户。源值是与特定员工相关的不同属性的数组:

  • 他\她的性别,
  • 年龄,
  • 多年经验,
  • 投资组合(完成的项目数量),
  • 专业和专业(网页设计,网页编程,管理等),
  • 许多其他(总共大约 20-30 个)

每个员工都有自己的工资(小时)率。所以,在数学上,我们有一些函数

F(attr1, attr2, attr3, ...) = A*attr1 + B*attr2 + C*attr3 + ...

系数未知。但是我们知道函数对指定参数的结果(假设我们知道一个有 20 年经验和 10 个作品集的男性程序员的工资是每小时 40 美元)。

所以我们必须以某种方式找到这些系数(A、B、C...),这样我们才能预测任何员工的薪水。这是最重要的目标。

另一个目标是找出哪些参数是最重要的——换句话说,哪些参数会导致函数结果发生重大变化。所以最后我们必须有这样的东西:“最重要的属性是多年的经验;然后是投资组合;然后是年龄等”。

可能存在不同职业之间差异太大的情况 - 例如,我们可能根本无法将网页设计师与经理进行比较。在这种情况下,我们必须将它们按组拆分,并分别为每个组计算这些评分。但最终我们需要找到对每个群体都通用的“共享”论点。

我正在考虑神经网络,因为这是他们可能处理的事情。但我对他们完全陌生,完全不知道该怎么做。

我非常感谢任何帮助——使用哪些工具、哪些算法,甚至是伪代码示例等。

非常感谢。

4

1 回答 1

0

这是(线性)回归的最基本示例。您正在使用线性函数对数据进行建模,并且需要估计参数。

请注意,这实际上是经典数理统计的一部分;还没有数据挖掘,但要老得多。

有各种方法。鉴于可能会有异常值,我建议使用 RANSAC。

至于重要性,这不是归结为“AB或C哪个最大”吗?

于 2013-05-04T10:19:57.587 回答