8

最近,我在 Coursera 教授 Andrew Ng 教授机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:

  • 我在哪里可以找到真实世界的机器学习用例示例?


  • 机器学习项目的工业/生产中使用了哪些工具或框架?

  • 机器学习模型如何在生产中使用或部署?

  • 如何成为数据科学家?或者我接下来应该做什么?

任何建议、书籍、课程或教程链接将不胜感激。

4

1 回答 1

16

恭喜你完成了 Andrew Ng 的机器学习课程,很久以前我也完成了这门很棒的课程。无论如何,我将一一回答您的问题,尽管很少有问题是相互关联的。

Q-1) 我在哪里可以找到真实世界的机器学习用例示例?

以下是一些链接,您可以在其中找到具有实际用例的机器学习教程:

Q-2) 机器学习项目的工业/生产中使用了哪些工具或框架?

工业级别使用了多种工具或框架,例如:

机器学习:

  • R(现在主要用于学术界)
  • Python(Sci-kit 学习)
  • 图形实验室
  • Apache Mahout
  • Spark MLlib
  • H20

深度学习:

  • TensorFlow 和 Keras
  • 网络
  • 火炬
  • 深度学习4j
  • Analytics Zoo(主要用于使用 Spark 进行大数据深度学习)

虽然 R、Scikit learn、GraphLab 在单机上运行良好,并且是数据科学家或机器学习从业者中最受欢迎的选择,但 Mahout、H20 和最近的 Spark (MLlib) 在这个大数据时代获得了很大的普及,你想要对不适合单台机器的大型数据集进行机器学习。

此外,还有一些其他工具,例如 Weka、Rapid Miner,用于基于 GUI 的机器学习工作流程。

这个工具或框架的选择实际上取决于项目要求、团队成员对工具/语言的了解、开发的难易程度和部署的可扩展性等因素。

Q-3) 如何在生产中使用或部署机器学习模型?

在生产中,您必须首先构建一个模型,验证和评估该模型,然后将该模型最终部署为 web/rest 服务以供其他应用程序/服务使用。部署机器学习模型取决于很多因素,例如 -

  • 模型是离线训练的吗?或者您正在部署在线学习模型?
  • 您多久重新训练一次模型?
  • 您将如何测试新版本的模型?- A/B 测试或 Bandit 变体。
  • 连同其他通用的东西——延迟、吞吐量、数据输入/输出格式等。

有一些基于云的机器学习服务提供商,如 Azure ML( https://studio.azureml.net/ ) BigML( https://bigml.com/ ) 等,您可以在其中上传数据集,进行一些数据处理,训练|验证|评估您的机器学习模型,然后最终将其部署为云中的 Web 服务。

现在所有主要的云平台(aws、google cloud、azure)都为您提供了一个机器学习平台,您可以在其中构建自己的模型、评估它们,然后最终将其部署到云中。它使您可以灵活地使用几乎所有主要的机器学习或深度学习框架构建模型,并根据您的要求为您提供部署的灵活性(什么类型的服务器/容器、推理/预测服务器的数量等)。

亚马逊 SageMaker:

[+] https://aws.amazon.com/sagemaker/

谷歌云机器学习 (ML) 引擎:

[+] https://cloud.google.com/ml-engine/

Q-4) 如何成为数据科学家?或者我接下来应该做什么?

这是一个百万美元的问题,并且在这个问题上有很多谷歌搜索..哈哈.. 我会根据我的知识尝试给你一个简短而简洁的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:

  • 业务理解或提问阶段
  • 数据收集或获取
  • 数据处理和准备
  • 建筑模型
  • 验证和评估

除此之外,您还需要根据数据可变性的变化进行模型再训练,或者您可以部署在线学习模型(它将根据所看到的数据进行自我调整)。

但是任何人成为数据科学家/机器学习从业者的基本要素是对数据有好奇心(即理解数据并从中找到有价值的知识)。成为数据科学家没有捷径,也没有任何课程可以让你一夜之间成为数据科学家。

没有预先定义的角色/范围,数据科学人员在公司的日常工作中应该知道或做什么。不同的行业或公司根据他们的业务问题对数据科学家有自己的工作要求/描述。

一个优秀的多才多艺的数据科学家必须具备以下技能,才能在各个行业中自信地维持并在他/她的职业生涯中取得成功:


最好的方法是玩数据或做一些真实世界的项目。许多公开可用的真实世界数据集,您可以选择您感兴趣的数据集。此外,您可以通过参加 Kaggle 的机器学习和数据科学竞赛来测试您的技能和专业知识。

要获得一些关于数据科学的知识,它是如何工作的以及一些动手练习,您可以尝试在线课程,例如:

https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2

https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x

于 2015-10-31T18:07:14.787 回答