0

我对 ML/NLP 完全陌生,出于某种原因,我需要在研究中使用 SentencePiece,所以我试图从它的官方示例中学习。

为了训练模型,它说:

spm.SentencePieceTrainer.train('--input=botchan.txt --model_prefix=m --vocab_size=2000')

由于我的训练数据非常庞大(如约 1m 句),我希望将它们逐个输入模型,以避免如此大的文件可能导致的一些内存问题。

这可能吗?

我知道这是一个非常简单的问题,但我还没有找到任何答案。

4

0 回答 0