我有一个包含 170 部荷兰文学小说的语料库,我将在其上应用命名实体识别。为了评估荷兰语的现有 NER 标记器,我想在这个语料库的随机样本中手动注释命名实体——为此我使用brat。手动注释的随机样本将作为我评估 NER 标记器的“黄金标准”。我编写了一个 Python 脚本,它在句子级别输出我的语料库的随机样本。
我的问题是:就每部小说的句子数量而言,随机样本的理想大小是多少?目前,我在每部小说中随机使用了 100 个句子,但这会导致一个包含近 21626 行的相当大的随机样本(手动注释很多,并且会导致小子的工作环境变慢)。