如果你觉得我错了,我需要深入了解基础才能从 ML 中获得价值,请告诉我。
好吧,我会咬的。
目前确实有两种与预测相关的思想流派:“机器学习者”与统计学家。前一组几乎完全专注于实际和应用预测,使用k折交叉验证、装袋等技术,而后一组更侧重于统计理论和研究方法。你似乎落入了机器学习阵营,这很好,但你这样说:
尽管我很想了解这在数学上如何解决的基本原理,但现在更专注于完成它,所以对所涉及的系统和过程的概念性理解是我想要得到的。
虽然“对所涉及的系统和流程的概念性理解”是进行高级分析的先决条件,但如果您是进行分析的人,这还不够(对于不熟悉建模的经理来说就足够了) )。
只要对正在发生的事情有一个大致的了解,例如,在逻辑回归模型中,您可能会将所有统计假设(这些假设很重要)抛诸脑后。您是否知道某些特征或组是否不应该包括在内,因为该组中没有足够的观察值使测试统计有效?当您拥有高方差膨胀因子时,您的预测和假设会发生什么变化?
在进行统计时,这些都是重要的考虑因素,而且人们经常看到这样做from sklearn.svm import SVC
或类似的事情是多么容易,然后狂奔。这就是你的脚踝被裤子缠住的原因。
我如何构建这个由 ML 驱动的盒子?
您似乎对如何处理机器/统计学习问题甚至没有基本的了解。我强烈建议您参加“统计学习简介”或“回归建模简介”类型的课程,以考虑如何将您拥有的 URL 转换为对 URL 类具有显着预测能力的有意义的特征。想一想如何将 URL 分解为单独的部分,这些部分可能会提供一些关于某个 URL 属于哪个类的信息。如果您按运动对域进行分类,那么解析出espn.com
非常重要,您不觉得吗?nba
http://www.espn.com/nba/team/roster/_/name/cle
祝你的项目好运。
编辑:
不过,为了推动您前进:每个 ML 问题都归结为一些函数映射输入到输出。您的输出是 URL 类。您的输入是 URL。然而,机器只能理解数字,对吧?URL 不是数字(AFAIK)。因此,您需要找到一种方法将 URL 中包含的信息转换为我们所说的“功能”或“变量”。一个开始的地方是对每个 URL 的不同部分进行一次热编码。想想我为什么提到上面的 ESPN 示例,以及为什么我nba
从 URL 中提取信息。我这样做是因为,如果我试图预测给定 URL 与哪项运动相关,nba
那将是一个致命的赠品(即它很可能对运动具有高度预测性)。