regex - 关于添加开始/结束句子标记的初学者建议：使用 Quanteda 功能与手动操作（自定义代码）

Question

我需要在我使用 Quanteda 分析的一些文本中添加开始和结束句子标记。
我想使用 Quanteda 添加这些标记，但我没有看到“开箱即用”的明确方法。
在寻找答案时，我在这里发现了一个关于 quanteda 和这些标记的不同问题。这里关于标记的另一个问题加强了我的猜测，即这项任务是“手动”完成的。

这是为了询问目前使用 Quanteda 添加此类标记的最佳方法是什么，以及与在自定义代码中执行此操作相比，它有哪些优点（“NLP 智能”？）和缺点（较低的速度、内存）。

我最感兴趣的是一般答案，欢迎任何关于我的案例细节的额外建议，它们是：

文本大小：非常大，例如当试图将文本分割成句子时，Quanteda 在 2-3 小时后仍在运行，我总是不得不终止会话。
我想使用 Quanteda，但不是不惜一切代价，我喜欢用 R、Python、Java 和正则表达式进行编码，如果其他非大型软件包带来相关优势，我在学习和使用它们来完成这项任务时没有问题（text2vec? ）。

输入和期望输出的样本。
使用“sss”和“eee”作为开始和结束句子标记：
输入：
CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC). Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992. MMWR Morb Mortal Wkly Rep 1992; 18: 129-31.
期望输出：
sss CENTERS FOR DISEASE CONTROL AND PREVENTION (CDC) eee sss Outbreak of influenza A in a nursing home - New York, Dec. 1991-Jan. 1992 eee sss MMWR Morb Mortal Wkly Rep 1992; 18: 129-31 eee

regex - 关于添加开始/结束句子标记的初学者建议：使用 Quanteda 功能与手动操作（自定义代码）

0 回答 0

Related

Reference