Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个大约 20000 个文本文件的语料库,我想使用这些文本文件训练标注器,这样更好,将这些文本文件分组到一个文本文件中(我不知道它是否会影响标注准确性)或将所有这些文本文件包含在道具文件中?
我不认为这很重要。代码应该只加载所有数据,如果您将其拆分为多个文件,这只是为了方便。此外,您可以为不同的文件指定不同的输入格式,但这不会影响最终模型。