我正在使用 Facebook 的 Fasttext 来执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。
在创建词向量之前,fasttext 是否将每个数字类型转换为字符串?
例如 1124 到“ 1124 ”
或者在训练之前在后台执行任何其他转换/预处理?
例如 1124 到“一一二四”
如果我的 fasttext 输入文本包含数字,那么处理数字数据的最佳方法应该是什么?
我正在使用 Facebook 的 Fasttext 来执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。
在创建词向量之前,fasttext 是否将每个数字类型转换为字符串?
例如 1124 到“ 1124 ”
或者在训练之前在后台执行任何其他转换/预处理?
例如 1124 到“一一二四”
如果我的 fasttext 输入文本包含数字,那么处理数字数据的最佳方法应该是什么?
Fasttext 不对数字标记进行任何预处理。它们被视为其他以空格分隔的“单词”。
除非您的输入中的 fasttext 和数字已经存在特定问题,否则我不会担心 fasttext 对数字的作用。照常使用即可。
如果您有很多数字并且它们会导致问题 - 这是可能的,因为 fasttext 可能没有针对大多数特定数字的任何有用向量 - 您可以预处理您的输入以将它们替换为<NUMBER>
或另一个虚拟令牌。这样这些句子将与 fasttext 相同:
是否要将它们视为相同取决于您的应用程序。