我需要在我使用 Quanteda 分析的一些文本中添加开始和结束句子标记。
我想使用 Quanteda 添加这些标记,但我没有看到“开箱即用”的明确方法。
在寻找答案时,我在这里发现了一个关于 quanteda 和这些标记的不同问题。这里关于标记的另一个问题加强了我的猜测,即这项任务是“手动”完成的。
这是为了询问目前使用 Quanteda 添加此类标记的最佳方法是什么,以及与在自定义代码中执行此操作相比,它有哪些优点(“NLP 智能”?)和缺点(较低的速度、内存)。
我最感兴趣的是一般答案,欢迎任何关于我的案例细节的额外建议,它们是:
文本大小:非常大,例如当试图将文本分割成句子时,Quanteda 在 2-3 小时后仍在运行,我总是不得不终止会话。
我想使用 Quanteda,但不是不惜一切代价,我喜欢用 R、Python、Java 和正则表达式进行编码,如果其他非大型软件包带来相关优势,我在学习和使用它们来完成这项任务时没有问题(text2vec? )。
输入和期望输出的样本。
使用“sss”和“eee”作为开始和结束句子标记:
输入:
CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC). Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992. MMWR Morb Mortal Wkly Rep 1992; 18: 129-31.
期望输出:
sss CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC) eee sss Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992 eee sss MMWR Morb Mortal Wkly Rep 1992; 18: 129-31 eee