我目前正在做一个收集和分类新闻文章的项目,我只对收集的所有文章的一小部分(例如与体育相关的新闻)感兴趣。
我是机器学习和文本分类的新手。我应该根据标题或实际内容对文章进行分类吗?人们通常可以通过查看标题来判断新闻文章是否相关。因此,我想知道标题而不是内容是否会在自动文本分类中提供相似或更好的准确性?
出现这个问题的原因是,如果程序在找到链接时首先分析标题,而不是从 url 中检索每个页面然后分析内容,那么整体性能会提高很多。
我目前正在做一个收集和分类新闻文章的项目,我只对收集的所有文章的一小部分(例如与体育相关的新闻)感兴趣。
我是机器学习和文本分类的新手。我应该根据标题或实际内容对文章进行分类吗?人们通常可以通过查看标题来判断新闻文章是否相关。因此,我想知道标题而不是内容是否会在自动文本分类中提供相似或更好的准确性?
出现这个问题的原因是,如果程序在找到链接时首先分析标题,而不是从 url 中检索每个页面然后分析内容,那么整体性能会提高很多。
标题不太可能提供足够的信息来对文章进行分类。但是,您可以分析标题,如果您有足够的信心获得准确的分类,则可以对其进行分类,否则请查看内容。
采取类似的东西Manchester in trouble
。如果您不知道那Manchester
是一支运动队,那么这篇文章可能是经济或政治的,也可能是少数其他类别之一。我怀疑很多标题只能由人们轻松分类,因为他们熟悉与该类别相关的专有名词,并且可能很难获得适当的训练数据来训练代理做好这一点。
没有一般的答案。很大程度上取决于您要使用的算法。我建议您只从一个标题开始,并尝试从中挤出最大的收益。如果您仍然无法达到所需的质量 - 尝试将文本添加到组合中。
如果我们谈论的是文章的标题,那么当然,很短的文本更不利于分类,因为它包含的信息较少。但是你可以结合文章标题和文章内容的分析。这可以使您的准确性略有提高。