2

我正在从特定 URL 中提取文章以转换为句子,但文本正文具有消除某些句子之间空格的随机行为,导致:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

我的一些文本是股票代码(AZ.GAN)等。所以我不能简单地在没有相邻空格的所有句点之间插入一个空格。

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

上面的例子会破坏股票代码变量。

好奇是否有人知道这是什么原因。我尝试了几种 HTML 和 DOM。我使用 Simple_DOM 来获取明文。虽然,如果我手动执行或使用任何其他解析引擎,我会得到相同的结果。

4

2 回答 2

3

不幸的是,我没有针对您的具体问题的方法,但是句子之间缺少的空格是否可能实际上是您的文本查看器(无论是什么)没有向您显示的换行符(例如 \n)?

也许尝试这样的事情只是为了确保

var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

于 2011-04-28T23:17:33.107 回答
1

尝试做:

$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));
于 2011-04-29T00:09:04.233 回答