2

我正在使用 Facebook 的 Fasttext 来执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。

  1. 在创建词向量之前,fasttext 是否将每个数字类型转换为字符串?

    例如 1124 到“ 1124 ”

  2. 或者在训练之前在后台执行任何其他转换/预处理?

    例如 1124 到“一一二四”

如果我的 fasttext 输入文本包含数字,那么处理数字数据的最佳方法应该是什么?

4

1 回答 1

3

Fasttext 不对数字标记进行任何预处理。它们被视为其他以空格分隔的“单词”。

除非您的输入中的 fasttext 和数字已经存在特定问题,否则我不会担心 fasttext 对数字的作用。照常使用即可。

如果您有很多数字并且它们会导致问题 - 这是可能的,因为 fasttext 可能没有针对大多数特定数字的任何有用向量 - 您可以预处理您的输入以将它们替换为<NUMBER>或另一个虚拟令牌。这样这些句子将与 fasttext 相同:

  1. 我吃了1023个橙子。
  2. 我吃了1024个橙子。

是否要将它们视为相同取决于您的应用程序。

于 2018-11-07T04:07:41.217 回答