node.js - 任何通过至少 20 个标记进行文本分类的方法 - Google NLP API

Question

无论如何要通过谷歌的 NLP API 文本分类方法的最低令牌要求吗？我正在尝试输入一个简短的简单句子，例如“我等不及总统辩论”，但这会返回错误消息：

Invalid text content: too few tokens (words) to process.

有没有办法解决这个问题？我一直在输入随机单词，直到输入的字符串达到 20 个字符，但这在很多时候会弄乱标签和信心。如果有任何方法可以解决这个问题，例如设置一个选项或添加一些很棒的东西！如果没有解决方法，请告诉我您是否知道另一个对我有用的预训练文本分类模型！

此外，我无法创建我想要的分类和标签。我正在做的事情需要太多，这就是为什么 nlp api 中的这些预定义类别很棒的原因。只需要摆脱 20 个字符的要求。

score 1 · Accepted Answer

正如官方内容分类文档中所阐明的：

重要提示：您必须向分类文本方法提供至少包含 20 个标记（单词）的文本块（文档）。

考虑到这一点，检查可能的替代方案，不幸的是，似乎没有办法解决这个问题。实际上，您需要提供至少 20 个单词。

出于这个原因，四处搜索，我在这里找到了这个和另一个——这个是中文的，但它可能对你有帮助:)——我相信它可能对你有帮助的文本分类预训练模型。

无论如何，请随时在Google 的问题跟踪器中提出功能请求，让他们检查是否有可能消除此限制。

让我知道这些信息是否对您有帮助！

1 回答 1