问题标签 [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 查找句子边界的 Java 库
有谁知道处理查找句子边界的 Java 库?我认为这将是一个智能 StringTokenizer 实现,它知道语言可以使用的所有句子终止符。
这是我使用 BreakIterator 的经验:
在这里使用示例:我有以下日语:
在 ascii 中,它看起来像这样:
这是我更改的示例的一部分: static void sentenceExamples() {
当我查看边界索引时,我看到了:
但是这些索引不对应于任何句子终止符。
python - 如何将字符串拆分为列表?
我希望我的 Python 函数拆分一个句子(输入)并将每个单词存储在一个列表中。我当前的代码拆分句子,但不将单词存储为列表。我怎么做?
text - 文本边界分析资源
我需要在我的项目中进行“文本边界分析”。
我记得有一个来自谷歌的资源可能有助于完成这项工作,但我不太记得名称或下载位置。
我记得这个资源是来自google搜索的集合统计数据,它可能包含很多人们在搜索引擎上用作关键字的词。(实际上,我不确定该资源中有什么,因为我很久以前读过这篇文章,但我确信该资源可用于查找文本边界。)
有人知道吗?
顺便说一句,是否有任何其他资源可能有助于文本边界分析?
(Alex Martelli:我尝试过 ICU 和 Java,但他们在任何一种东方语言中都找不到单词。)
(dwc:非常感谢,这可能会有所帮助。)
dynamic - 有人知道使用动态编程进行分词的示例算法吗?
如果您在谷歌搜索分词,确实没有很好的描述,我只是想完全理解动态编程算法将字符串分割成单个单词的过程。有谁知道一个可以很好地描述分词问题的地方,或者任何人都可以描述它吗?
分词基本上只是获取一串字符并决定在哪里将其拆分为单词,如果您不知道并使用动态编程它会考虑到一些子问题。使用递归这很简单,但我无法在网上找到任何地方,甚至只是在网上找到一个迭代算法的描述,所以如果有人有任何例子或者可以给出一个很棒的算法。
谢谢你的帮助。
c# - 使用 C# 格式化字符串中的句子
我有一个包含多个句子的字符串。如何将每个句子中第一个单词的第一个字母大写。类似于 word 中的段落格式。
例如,“这是一些代码。代码是 C#。” 输出必须是“这是一些代码。代码是 C#”。
一种方法是根据 '.' 拆分字符串。然后将第一个字母大写,然后重新加入。
有更好的解决方案吗?
php - 如何将段落拆分为句子
我一直在尝试使用:
但它不适用于美国博士等。
有没有人有更好的建议?
testing - 我们可以在拉丁语言中使用什么样的分割规则来编写测试用例?
我们需要为基于拉丁语的语言编写分段逻辑的测试用例。wrt 我找到了很多网站,文档的分割逻辑规则,与我有一个链接“ http://www.lisa.org/fileadmin/standards/srx20.pdf ”相关,但我们不想使用这个. 现在我们正在寻找可以支持所有拉丁语言的更相关的分词规则,并且可以在分词后使用这些分词规则测试所有可能性,如标点符号、句号、逗号和其他用于基于拉丁语的语言的符号?
感谢期待,Manjushree
jquery - 使用 jQuery 突出显示长句子
我想突出显示页面上的段落对象数组中包含的长句子(例如,50 个单词或更多),即$("#content p")
. 我不知道如何解决这个问题。
我最初试图突出显示所有句子,但是当它们包含 HTML 标记时遇到了麻烦(网络上的示例突出显示代码似乎仅针对单个单词,因此它们不考虑子节点)。我知道拆分句子很困难。我想用.!? 后跟一个空格,然后是一个大写字母,或者什么都没有(即段落的结尾)。
提前感谢您的任何帮助/建议。
php - 如何在 PHP 中获取句子的第一个单词?
我想从字符串中提取变量的第一个单词。例如,采用以下输入:
结果输出应该是Test
,这是输入的第一个单词。我怎样才能做到这一点?