我正在从特定 URL 中提取文章以转换为句子,但文本正文具有消除某些句子之间空格的随机行为,导致:
Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.
我的一些文本是股票代码(AZ.GAN)等。所以我不能简单地在没有相邻空格的所有句点之间插入一个空格。
Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.
上面的例子会破坏股票代码变量。
好奇是否有人知道这是什么原因。我尝试了几种 HTML 和 DOM。我使用 Simple_DOM 来获取明文。虽然,如果我手动执行或使用任何其他解析引擎,我会得到相同的结果。