我提出这个问题是为了寻找有关如何设计系统的实用建议。
amazon.com 和 pandora 等网站拥有并维护着庞大的数据集来运行其核心业务。例如,亚马逊(以及所有其他主要电子商务网站)有数百万种产品可供出售,这些产品的图像、定价、规格等等等。
忽略来自第三方卖家的数据和用户生成的内容,所有“东西”都必须来自某个地方并由某人维护。它也非常详细和准确。如何?他们是如何做到的呢?是只有一大群数据录入员,还是他们设计了系统来处理繁重的工作?
我的公司也有类似的情况。我们维护着一个庞大的(10 万条记录)汽车零件目录及其适合的汽车。我们已经有一段时间了,并提出了许多程序和流程来保持我们的目录不断增长和准确;但是,似乎要将目录增加到x项,我们需要将团队增加到y。
我需要想出一些方法来提高数据团队的效率,希望我可以从其他人的工作中学习。任何建议都表示赞赏,但更多的是指向我可以花一些时间阅读的内容的链接。