最近,我在 Coursera 教授 Andrew Ng 教授机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
我在哪里可以找到真实世界的机器学习用例示例?
机器学习项目的工业/生产中使用了哪些工具或框架?机器学习模型如何在生产中使用或部署?
如何成为数据科学家?或者我接下来应该做什么?
任何建议、书籍、课程或教程链接将不胜感激。
最近,我在 Coursera 教授 Andrew Ng 教授机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
我在哪里可以找到真实世界的机器学习用例示例?
机器学习项目的工业/生产中使用了哪些工具或框架?
机器学习模型如何在生产中使用或部署?
如何成为数据科学家?或者我接下来应该做什么?
任何建议、书籍、课程或教程链接将不胜感激。
恭喜你完成了 Andrew Ng 的机器学习课程,很久以前我也完成了这门很棒的课程。无论如何,我将一一回答您的问题,尽管很少有问题是相互关联的。
Q-1) 我在哪里可以找到真实世界的机器学习用例示例?
以下是一些链接,您可以在其中找到具有实际用例的机器学习教程:
机器学习示例 Scikit 学习:http ://scikit-learn.org/stable/tutorial/basic/tutorial.html
机器学习教程 H20:https ://github.com/h2oai/h2o-tutorials
Sagemaker 机器学习和深度学习示例:https ://github.com/awslabs/amazon-sagemaker-examples
Q-2) 机器学习项目的工业/生产中使用了哪些工具或框架?
工业级别使用了多种工具或框架,例如:
机器学习:
深度学习:
虽然 R、Scikit learn、GraphLab 在单机上运行良好,并且是数据科学家或机器学习从业者中最受欢迎的选择,但 Mahout、H20 和最近的 Spark (MLlib) 在这个大数据时代获得了很大的普及,你想要对不适合单台机器的大型数据集进行机器学习。
此外,还有一些其他工具,例如 Weka、Rapid Miner,用于基于 GUI 的机器学习工作流程。
这个工具或框架的选择实际上取决于项目要求、团队成员对工具/语言的了解、开发的难易程度和部署的可扩展性等因素。
Q-3) 如何在生产中使用或部署机器学习模型?
在生产中,您必须首先构建一个模型,验证和评估该模型,然后将该模型最终部署为 web/rest 服务以供其他应用程序/服务使用。部署机器学习模型取决于很多因素,例如 -
有一些基于云的机器学习服务提供商,如 Azure ML( https://studio.azureml.net/ ) BigML( https://bigml.com/ ) 等,您可以在其中上传数据集,进行一些数据处理,训练|验证|评估您的机器学习模型,然后最终将其部署为云中的 Web 服务。
现在所有主要的云平台(aws、google cloud、azure)都为您提供了一个机器学习平台,您可以在其中构建自己的模型、评估它们,然后最终将其部署到云中。它使您可以灵活地使用几乎所有主要的机器学习或深度学习框架构建模型,并根据您的要求为您提供部署的灵活性(什么类型的服务器/容器、推理/预测服务器的数量等)。
亚马逊 SageMaker:
[+] https://aws.amazon.com/sagemaker/
谷歌云机器学习 (ML) 引擎:
[+] https://cloud.google.com/ml-engine/
Q-4) 如何成为数据科学家?或者我接下来应该做什么?
这是一个百万美元的问题,并且在这个问题上有很多谷歌搜索..哈哈.. 我会根据我的知识尝试给你一个简短而简洁的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:
除此之外,您还需要根据数据可变性的变化进行模型再训练,或者您可以部署在线学习模型(它将根据所看到的数据进行自我调整)。
但是任何人成为数据科学家/机器学习从业者的基本要素是对数据有好奇心(即理解数据并从中找到有价值的知识)。成为数据科学家没有捷径,也没有任何课程可以让你一夜之间成为数据科学家。
没有预先定义的角色/范围,数据科学人员在公司的日常工作中应该知道或做什么。不同的行业或公司根据他们的业务问题对数据科学家有自己的工作要求/描述。
一个优秀的多才多艺的数据科学家必须具备以下技能,才能在各个行业中自信地维持并在他/她的职业生涯中取得成功:
良好的统计学知识(包括一点贝叶斯)——在 EDA 阶段必不可少。
数学(尤其是线性代数、矩阵、向量、多元微积分):https ://www.coursera.org/specializations/mathematics-machine-learning
良好的机器学习算法实用知识:https ://www.coursera.org/specializations/machine-learning
一些深度学习和强化学习知识。斯坦福深度学习课程:http : //cs231n.stanford.edu/ 和 Andrej Karpathy 制作的本课程的 youtube 视频 - https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk。还有 DeepLearning Coursera:https ://www.coursera.org/specializations/deep-learning 和强化学习课程 - 伯克利大学:http ://rail.eecs.berkeley.edu/deeprlcourse/
通过 Spark 和 SQL 等大数据工具进行大数据集分析。大数据机器学习:https ://www.coursera.org/learn/machine-learning-applications-big-data
探索数据和学习新事物的好奇心(以了解该领域的最新创新)。
以及一些业务领域知识 - 很高兴拥有(可选)
最好的方法是玩数据或做一些真实世界的项目。许多公开可用的真实世界数据集,您可以选择您感兴趣的数据集。此外,您可以通过参加 Kaggle 的机器学习和数据科学竞赛来测试您的技能和专业知识。
要获得一些关于数据科学的知识,它是如何工作的以及一些动手练习,您可以尝试在线课程,例如:
https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2
https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x