我想自学足够的机器学习,以便我能够首先理解足够的知识来使用可用的开源 ML 框架,这将使我能够做以下事情:
浏览来自某个站点的页面的 HTML 源并“了解”哪些部分构成内容,哪些广告以及哪些构成元数据(既不是内容也不是广告 - 例如 - TOC、作者简介等)
浏览来自不同站点的页面的 HTML 源并“分类”该站点是否属于预定义类别(将预先提供类别列表)1。
...文本和页面上的类似分类任务。
如您所见,我的直接要求是对不同数据源和大量数据进行分类。
就我有限的理解而言,与使用 SVM 相比,采用神经网络方法需要大量的训练和维护?
我知道 SVM 非常适合像我这样的(二进制)分类任务,而像 libSVM 这样的开源框架相当成熟?
那么,计算机科学专业的毕业生现在需要学习哪些学科和主题,才能解决上述要求,使用这些框架?
我想远离 Java,这是可能的,否则我没有语言偏好。我愿意学习并尽我所能付出努力。
我的意图不是从头开始编写代码,而是首先让各种框架可供使用(虽然我不知道是哪一个),并且如果它们出错,我应该能够修复它们。
你对学习统计学和概率论的特定部分的建议对我来说并不意外,所以如果需要的话就这么说吧!
如果需要,我将根据您的所有建议和反馈修改此问题。