python - 使用多个输入文件而不是一个文件来训练 SentencePiece 模型

问问题 2022-01-27T17:35:05.247

16 次

我对 ML/NLP 完全陌生，出于某种原因，我需要在研究中使用 SentencePiece，所以我试图从它的官方示例中学习。

为了训练模型，它说：

spm.SentencePieceTrainer.train('--input=botchan.txt --model_prefix=m --vocab_size=2000')

由于我的训练数据非常庞大（如约 1m 句），我希望将它们逐个输入模型，以避免如此大的文件可能导致的一些内存问题。

这可能吗？

我知道这是一个非常简单的问题，但我还没有找到任何答案。

0 回答 0