我正在尝试通过首先通过https://github.com/kingoflolz/mesh-transformer-jax/blob/master/create_finetune_tfrecords.py创建 tfrecords 来微调 6b 参数模型
我给出的输入文件有文本,
<|endoftext|>causes and conditions of sinusitis: Acute sinusitis can be triggered by a cold or allergies and may resolve on its own. Chronic sinusitis lasts up to eight weeks and may be caused by an infection or growth. Symptoms include headache, facial pain, runny nose and nasal congestion.<|endoftext|>
输入 txt 文件的格式是否正确,因为我需要一个兼容的 lm 格式来进行问答或医学笔记的标题和摘要。
是否可以在同一个文件中通过行分隔捕获多个标题/摘要,何时需要新的 txt 文件。我没有找到关于语言建模数据格式的文档。请帮忙。