我在这里关注本教程:https ://github.com/huggingface/notebooks/blob/master/examples/tokenizer_training.ipynb
因此,使用此代码,我添加了我的自定义数据集:
from datasets import load_dataset
dataset = load_dataset('csv', data_files=['/content/drive/MyDrive/mydata.csv'])
然后,我使用此代码查看数据集:
dataset
访问一个元素:
dataset['train'][1]
访问切片目录:
dataset['train'][:5]
成功执行上述代码后,我尝试在这里执行:
new_tokenizer = tokenizer.train_new_from_iterator(batch_iterator(), vocab_size=25000)
但是,我收到此错误:
KeyError: "Invalid key: slice(0, 1000, None). Please first select a split. For example: `my_dataset_dictionary['train'][slice(0, 1000, None)]`. Available splits: ['train']"
我该如何解决?
我正在尝试训练自己的标记器,这似乎是一个问题。
任何帮助,将不胜感激!