问题标签 [sentencepiece]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
16 浏览

python - 使用多个输入文件而不是一个文件来训练 SentencePiece 模型

我对 ML/NLP 完全陌生,出于某种原因,我需要在研究中使用 SentencePiece,所以我试图从它的官方示例中学习。

为了训练模型,它说:

由于我的训练数据非常庞大(如约 1m 句),我希望将它们逐个输入模型,以避免如此大的文件可能导致的一些内存问题。

这可能吗?

我知道这是一个非常简单的问题,但我还没有找到任何答案。

0 投票
0 回答
5 浏览

nlp - 是否有用于子词标记器(如句​​子或单词)的预训练嵌入?

因此,我一直在尝试找出一种方法来为诸如sentencepieceor的子词标记器获取预训练的嵌入,wordpiece但没有成功。是否存在针对这些的预训练嵌入?是否有可以获取语料库并为任何给定句子生成子词嵌入的库。

我有这样一个猜想,对于我的任务,使用子词标记器会比传统的标记器工作得更好,但我无法理解如何将子词标记转换为嵌入。我不想使用传统的 BERT 架构,因为它体积庞大,因此正在寻找替代方案。