我很难理解构建词袋的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配给多个预定义类别中的一个类别。现在我在为特定类别(例如“数学”)构建词袋时所熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行 TF-IDF)以获得类别“数学”的词袋。
问题:我正在考虑的另一种方法是在谷歌中搜索“与数学相关的术语列表”之类的内容来构建我的词袋。请问这种方法可以吗?
另一个问题:在这个问题的上下文中,词袋和语料库是否意味着同样的事情?
先感谢您!
我很难理解构建词袋的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配给多个预定义类别中的一个类别。现在我在为特定类别(例如“数学”)构建词袋时所熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行 TF-IDF)以获得类别“数学”的词袋。
问题:我正在考虑的另一种方法是在谷歌中搜索“与数学相关的术语列表”之类的内容来构建我的词袋。请问这种方法可以吗?
另一个问题:在这个问题的上下文中,词袋和语料库是否意味着同样的事情?
先感谢您!
这不是词袋。Bag of words 是用来描述表示给定文档的特定方式的术语。即文档(段落、句子、网页)表示为表单的映射
word: how many times this word is present in a document
例如“约翰喜欢猫和狗”将表示为:{约翰:1,喜欢:2,猫:1,和:1,狗:1}。这种表示可以很容易地输入到典型的 ML 方法中(特别是如果假设总词汇量是有限的,所以我们最终得到数字向量)。
请注意,这不是关于“为一个类别创建一个词袋”。类别,在典型的监督学习中,由多个文档组成,每个文档独立地表示为一个词袋。
特别是,这使您向谷歌询问与类别相关的单词的最终提议无效 - 这不是典型的 ML 方法的工作方式。你会得到很多文档,将它们表示为词袋(或其他东西),然后执行统计分析(构建模型)以找出区分类别的最佳规则集。这些规则通常不会简单地是“如果 X 出现,这与 Y 相关”。