问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
19043 浏览

java - 如何在单独的行中逐字显示句子

句子 String 应该是一堆用空格分隔的单词,例如“Now is the time”。showWords 的工作是每行输出一个句子的单词。

这是我的作业,我正在努力,正如您从下面的代码中看到的那样。我不知道如何以及使用哪个循环逐字输出...请帮助。

0 投票
7 回答
5826 浏览

python - 使用字典在python中查找带空格的单词?

我从文档中提取了句子列表。我正在预处理这个句子列表以使其更明智。我面临以下问题

我有句子如"more recen t ly the develop ment, wh ich is a po ten t "

我想用查字典来纠正这样的句子?删除不需要的空格。

最终输出应该是"more recently the development, which is a potent "

我会假设这是预处理文本中的一项直接任务?我需要一些指针来寻找这种方法。谢谢。

0 投票
0 回答
1046 浏览

visual-c++ - 蛮力转置解密——分词

我是第二年的 B. Comp。科学。学生并且有一个密码学作业真的让我很伤心。我们得到了一个转置加密的英语短语的文本文件和一个英语词典文件,然后要求我们编写一个程序来自动破译这些短语,而无需任何用户输入。

我的第一个想法是简单地暴力破解密文的所有可能排列,这应该是微不足道的。但是,然后我必须决定哪一个最有可能成为实际的明文,这就是我正在努力解决的问题。

SO上有大量关于分词的信息,包括thisthis以及其他帖子。使用这些信息以及我在大学已经学到的知识,这是我目前所掌握的:

这个算法有两个主要问题:

  1. 它非常慢,大约需要 30 秒。解密一个 80 字符。信息。
  2. 它并不完全准确(如果我还没有占据一整页,我会详细说明这一点,但您可以使用完整的 VC++ 2012 项目自己尝试一下)。

任何有关如何改进此算法的建议将不胜感激。MTIA :-)

0 投票
1 回答
1763 浏览

python - 在 Python 中使用正则表达式进行句子分割

我正在编写一个脚本,用 Python 将文本拆分成句子。但是,我不擅长编写更复杂的正则表达式。

有 5 条规则,我希望根据这些规则拆分句子。我想拆分句子,如果他们:

Python 的正则表达式是什么?

0 投票
1 回答
844 浏览

javascript - JS/Jquery:使用字典和最长匹配的字符串到单词文本分割脚本?

给定一个这样的字符串:

由字典中的单词列表辅助,例如:

怎么分str词?

对于此字符串,需要识别 3 个单词。但我们需要避免这些陷阱。大多数时候为了避免它们,我知道我们可以攻击左边的句子,并尝试找到最长的单词。找到后,我们可以攻击字符串的其余部分,等等。

下面:右下角的输入、可能的陷阱和想要的输出。

最后,我们想要得到:

0 投票
1 回答
393 浏览

c++ - 从段落中提取句子

使用strtokone 可以单独获取 para 中的每个标记。

我想单独捕获页面中的所有句子以分别处理它们。

一种解决方案是我保持 for 循环并检查每个字符,如果是,.那么我认为句子已完成,因此存储在某些数据结构中。I dont know which data structure is best suitable to store this. 数组还是向量?

有没有其他更好的方法或一些 c++ 类可以做到这一点?

更新

稍后我想对句子中的否定执行操作。意味着考虑not, no,nope这样的关键词。if not+ negative wordthen 把它当作 +ve 词。

0 投票
2 回答
6152 浏览

web - NLP中的英语分词?

我是 NLP 领域的新手,但我目前的研究需要从 URL 地址中进行一些文本解析(或称为关键字提取),例如假 URL,

我的解析有两个约束,

  1. 第一个“ads”和最后一个“heads”应该是不同的,因为“heads”中的“ads”意味着更多的后缀而不是广告。

  2. “appid”可以解析成两部分;即“app”和“id”,在互联网上都具有语义含义。

我试过斯坦福 NLP工具包和谷歌搜索引擎。前者试图将每个单词按我预期的语法含义进行分类。谷歌引擎对“appid”表现出更多的聪明,这给了我关于“app id”的建议。

我无法查看谷歌搜索中搜索历史的参考,因此它给了我“app id”,因为有很多人搜索过这些词。我可以得到一些离线方法来执行类似的解析吗?


更新:

请跳过正则表达式建议,因为即使是简单的 URL,也可能包含未知数量的单词组合,例如“appid”。

谢谢,

贾敏

0 投票
1 回答
665 浏览

php - 如何将段落更改为 PHP 中的数组,包括空格和标点符号

我有一个这样的字符串Hello? My name is Ben! @ My age is 32.

我想将其更改为一个数组,其中所有单词、空格和标点符号作为数组中的单独实体。例如,如果我这样做var_dump($sentence),数组应该如下所示:

ETC...

我发现的唯一接近此的代码是:

输出:

我如何更改它,以便空格和标点符号在数组中分开?

0 投票
3 回答
17016 浏览

java - 如何将段落拆分为句子?

请看以下内容。

这就是我尝试将段落拆分为句子的方式。但有个问题。我的段落包括日期之类Jan. 13, 2014的、单词之类的U.S和数字之类的2.2。他们都被上面的代码分开了。所以基本上,无论是否是句号,这段代码都会分割很多“点”。

我也试过String[]sentenceHolder = titleAndBodyContainer.split(".\n");String[]sentenceHolder = titleAndBodyContainer.split("\\.");。都失败了。

如何“正确”地将段落拆分为句子?

0 投票
7 回答
10847 浏览

c - 计算c中段落中的句子数

作为我课程的一部分,我必须使用 Turbo C 来学习 C(不幸的是)。

我们的老师要求我们编写一段代码来计算段落中的字符、单词和句子的数量(仅使用 printf、getch() 和 while 循环.. 他不希望我们使用任何其他命令) . 这是我写的代码:

它确实有效(至少计算字符和单词的数量)。但是,当我编译代码并在控制台窗口中检查它时,我无法让程序停止运行。它应该在我输入回车键后立即结束。这是为什么?