问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
372 浏览

regex - 按句子中的最后一个单词拆分列

YARQ(又一个正则表达式问题)。

我将如何将以下内容分成两列,确保最后一列包含句子中的最后一个单词,而第一列包含其他所有内容。

这样我最终得到:

0 投票
3 回答
3020 浏览

perl - 使用 Perl 将段落转换为句子

我正在做 Perl 编程。我需要阅读一段并将每个句子打印成一行。

有人知道该怎么做吗?

下面是我的代码:

0 投票
2 回答
7707 浏览

php - 使用正则表达式和 PHP 将段落拆分为句子

我是一个正则表达式菜鸟,并试图将段落分成句子。在我的语言中,我们在句子中间使用了很多缩写词(例如:bl.a.),所以我得出结论,我需要做的是寻找标点符号,然后是一个空格,然后是一个以大写字母开头的单词,例如:

所以一段像:

应该以这个输出结束:

而不是这个:

我找到了一个解决方案,它使用积极的后向功能来完成第一部分:

进而

这是一个很好的起点,但由于缩写太多而分裂了太多次。

我试图这样做:

针对任何一个的每一次出现

后跟一个空格和一个大写字母,但这不起作用。

有谁知道,是否有办法完成我想做的事情?

0 投票
7 回答
32613 浏览

python - Python提取包含单词的句子

我正在尝试从文本中提取包含指定单词的所有句子。

但它正在返回我:

代替 :

请问有什么帮助吗?

0 投票
3 回答
5294 浏览

php - 如何将句子拆分为单词和标点符号?

例如,我想拆分这句话:

成一个有 5 个部分的数组;I, am, a,sentence..

我目前正在preg_split尝试后使用explode,但我似乎找不到合适的东西。

这是我尝试过的:

还有这个:

如何才能做到这一点?

0 投票
3 回答
6373 浏览

java - 从用户输入的句子中查找每个单词中的元音(java)

我有一个提供以下输出的程序:

输入一句话:我是java新手

新的

爪哇

元音数:我是 java 新手 = 6

我的问题是我需要获取用户输入的句子的每个单词中的元音。

例如,输出应该是这样的:

输入一句话:我是java新手

我 (1)

上午 (1)

新 (1)

到 (1)

爪哇 (2)

元音数:我是 java 新手 = 6

我正在使用 .split() 分隔输入的句子并切换 /.charAT 语句以进行元音检查。

有人可以帮我实现这个结果吗?

0 投票
5 回答
4178 浏览

c# - 如何通过字符串中的单个单词匹配提取整个句子?

所以我得到了一个完整的字符串(大约 10k 个字符),然后在该字符串中搜索一个单词(或许多单词)。与regex(word).Matches(scrappedstring).

但是如何提取包含该单词的整个句子。我正在考虑在搜索的单词之后取一个子字符串,直到第一个点/感叹号/问号/等。但是如何取词前的句子部分呢?

或者也许有更好的逻辑?

0 投票
1 回答
1791 浏览

javascript - 将 HTML 内容拆分为句子,但保持子标签完整

我正在使用下面的代码将段落标签中的所有文本分成句子。除了少数例外,它工作正常。但是,段落中的标签会被咀嚼并吐出。例子:

那么,我怎样才能忽略标签,以便我可以解析句子并在它们周围放置跨度标签并将 , 等...标签保留在适当的位置?或者以某种方式遍历 DOM 并这样做是否更聪明?

我在 Chrome 扩展内容脚本中使用它;这意味着 javascript 被注入到它所接触的任何页面中并动态解析<p>标签。因此,它需要是javascript。

0 投票
2 回答
4734 浏览

vba - MS Word 的 VBA 没有遍历段落中的所有句子

我正在尝试遍历 Word 文档中的所有句子并将它们解析为半 HTML 代码。在测试过程中,我遇到了一个有趣的情况,即会跳过后面跟着非封闭句的任何句子。例如,如果我有以下两句话:

这是带有特殊字符的段落中的第一个句子,应该还有一个句子。这是应该在那里的第二句话。**

当我遍历paragraph.range.sentences 中的每个句子时,我只得到第一个句子和段落末尾的“.**”。但是,如果我在句点和 astriks 之间添加一个空格,那么代码将工作“。**”。

即使句号后没有空格,如何确保宏读取句子中的所有文本?我的示例代码如下:

0 投票
4 回答
4415 浏览

python - 文本分割:将输入与字典中最长的单词匹配的算法

我需要将字符串拆分为单词,以便每个单词都来自字典。还要确保选择左边最长的单词。因此

我设法通过从字符串的末尾遍历到开头匹配的最长单词来解决这个问题。但是问题开始困扰我们这些问题......

我试图通过删除遇到错误之前找到的有效段来解决这个问题,即

并从字典中删除一次,然后解决问题。所以

因此我也设法解决了这个问题。但后来我无法解决这个问题

然后我的解决方案将从字典中删除'as'并尝试解决它

因为在新的递归调用中,'as' 已从字典中删除。我写的函数在这个链接中。我希望有人可以通过它并帮助我找到更好的算法来解决这个问题,否则建议修改我现有的算法。