问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2548 浏览

java - 查找句子边界的 Java 库

有谁知道处理查找句子边界的 Java 库?我认为这将是一个智能 StringTokenizer 实现,它知道语言可以使用的所有句子终止符。

这是我使用 BreakIterator 的经验:

在这里使用示例:我有以下日语:

在 ascii 中,它看起来像这样:

这是我更改的示例的一部分: static void sentenceExamples() {

当我查看边界索引时,我看到了:

但是这些索引不对应于任何句子终止符。

0 投票
10 回答
1912163 浏览

python - 如何将字符串拆分为列表?

我希望我的 Python 函数拆分一个句子(输入)并将每个单词存储在一个列表中。我当前的代码拆分句子,但不将单词存储为列表。我怎么做?

0 投票
1 回答
131 浏览

text - 文本边界分析资源

我需要在我的项目中进行“文本边界分析”。

我记得有一个来自谷歌的资源可能有助于完成这项工作,但我不太记得名称或下载位置。

我记得这个资源是来自google搜索的集合统计数据,它可能包含很多人们在搜索引擎上用作关键字的词。(实际上,我不确定该资源中有什么,因为我很久以前读过这篇文章,但我确信该资源可用于查找文本边界。)

有人知道吗?

顺便说一句,是否有任何其他资源可能有助于文本边界分析?

(Alex Martelli:我尝试过 ICU 和 Java,但他们在任何一种东方语言中都找不到单词。)

(dwc:非常感谢,这可能会有所帮助。)

0 投票
3 回答
7402 浏览

dynamic - 有人知道使用动态编程进行分词的示例算法吗?

如果您在谷歌搜索分词,确实没有很好的描述,我只是想完全理解动态编程算法将字符串分割成单个单词的过程。有谁知道一个可以很好地描述分词问题的地方,或者任何人都可以描述它吗?

分词基本上只是获取一串字符并决定在哪里将其拆分为单词,如果您不知道并使用动态编程它会考虑到一些子问题。使用递归这很简单,但我无法在网上找到任何地方,甚至只是在网上找到一个迭代算法的描述,所以如果有人有任何例子或者可以给出一个很棒的算法。

谢谢你的帮助。

0 投票
5 回答
5783 浏览

c# - 使用 C# 格式化字符串中的句子

我有一个包含多个句子的字符串。如何将每个句子中第一个单词的第一个字母大写。类似于 word 中的段落格式。

例如,“这是一些代码。代码是 C#。” 输出必须是“这是一些代码。代码是 C#”。

一种方法是根据 '.' 拆分字符串。然后将第一个字母大写,然后重新加入。

有更好的解决方案吗?

0 投票
11 回答
3650 浏览

php - 将句子拆分成单独的单词

0 投票
3 回答
5471 浏览

php - 如何将段落拆分为句子

我一直在尝试使用:

但它不适用于美国博士等。

有没有人有更好的建议?

0 投票
1 回答
47 浏览

testing - 我们可以在拉丁语言中使用什么样的分割规则来编写测试用例?

我们需要为基于拉丁语的语言编写分段逻辑的测试用例。wrt 我找到了很多网站,文档的分割逻辑规则,与我有一个链接“ http://www.lisa.org/fileadmin/standards/srx20.pdf ”相关,但我们不想使用这个. 现在我们正在寻找可以支持所有拉丁语言的更相关的分词规则,并且可以在分词后使用这些分词规则测试所有可能性,如标点符号、句号、逗号和其他用于基于拉丁语的语言的符号?

感谢期待,Manjushree

0 投票
4 回答
1143 浏览

jquery - 使用 jQuery 突出显示长句子

我想突出显示页面上的段落对象数组中包含的长句子(例如,50 个单词或更多),即$("#content p"). 我不知道如何解决这个问题。

我最初试图突出显示所有句子,但是当它们包含 HTML 标记时遇到了麻烦(网络上的示例突出显示代码似乎仅针对单个单词,因此它们不考虑子节点)。我知道拆分句子很困难。我想用.!? 后跟一个空格,然后是一个大写字母,或者什么都没有(即段落的结尾)。

提前感谢您的任何帮助/建议。

0 投票
16 回答
221466 浏览

php - 如何在 PHP 中获取句子的第一个单词?

我想从字符串中提取变量的第一个单词。例如,采用以下输入:

结果输出应该是Test,这是输入的第一个单词。我怎样才能做到这一点?