问题标签 [sentence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
198 浏览

regex - 捕获重复句子的正则表达式

我最近一直在处理大型文本文件。我已将它们转换为 CSV 格式,使用|as quotechar,但我发现有时文本文件中会重复整个句子 - 不一定是一个接一个。句子可以有不同的长度。我的目标是从 CSV 文件中删除重复的句子。为了澄清,它看起来像:

其中一些第二列是重复的。我对正则表达式有一些经验,但我还没有看到可以用于此的东西。正则表达式是解决这个问题的正确方法,还是有更好的选择?任何建议将不胜感激。

0 投票
4 回答
39207 浏览

xml - Maven:属性标签中pom.xml中的if语句

如果设置了环境变量,我想设置一个属性。我用谷歌搜索了很多,我发现的所有内容都类似于下面的代码,但我不断收到错误消息:

[致命] 不可解析的 POM Y:\Maven\parent-pom\pom.xml:TEXT 必须紧跟在 END_TAG 而不是 START_TAG 之后(位置:START_TAG seen ...roperties"\r\n
classpathref="maven. plugin.classpath" />... @29:55) @ 第 29 行,第 55 列

这就是我正在尝试的代码,它在 pom.xml 中,我运行了命令 -

mvn --errors 部署

当然,如果您对如何根据环境变量内容在 pom.xml 中设置属性有其他建议,我将很乐意获得任何其他解决方案。

谢谢, 伊莱

0 投票
3 回答
5896 浏览

python - Python提取包含2个单词的句子

我有这个链接中讨论的相同问题Python extract sentence contains word,但不同之处在于我想在同一个句子中找到 2 个单词。我需要从包含 2 个特定单词的语料库中提取句子。有人可以帮助我吗?

0 投票
2 回答
176 浏览

xslt - 使用 XSLT 将 XML 转换为带有嵌套 AND/OR 的“布尔”英文句子

我需要将 XML 转换成类似于英文句子的东西。例如以下 XML:

必须变成类似的东西:

这是一个示例,但“and”和“or”条件可以进一步嵌套。

规则似乎是:

  • 如果一个元素没有后续的兄弟姐妹或孩子,那么什么都不会输出,你就完成了。
  • 如果“and”或“or”有一个没有子代的后续兄弟,则输出后续兄弟的类型(“and”或“or”)。(例如,A和B;C和D;D或E)
  • 如果“and”后面有一个带有“or”子节点的“and”兄弟,则输出“and either”(例如,and either C)。
  • 不输出没有文本的元素。

我尝试了几种方法来生成此输出,但都没有成功。一个问题是没有得到正确的递归。我见过很多嵌套一个元素的 xslt 处理示例(例如,Item 可以由由其他 Item 组成的其他 Item 组成,等等),但是没有像“and”和“or”这样的两个元素的示例" 可以是兄弟姐妹和/或相互嵌套。我尝试使用 xsl:template match= "and | or" 然后测试 "and" 或 "or",但我要么没有降到叶级别,要么以错误的顺序出现。

我想知道是否有人可以为我指出正确的方向来处理这样的结构,和/或是否有人可以提出更好的结构来表示“布尔”句子。由于 XML 尚未最终确定,如果可以使处理更容易,可以对其进行修改。

注意:我使用的是 Saxon 9,可以使用 xslt 2.0 解决方案。

更多信息:

再次感谢@g-ken-holman。我喜欢建议的自上而下的方法,但我遇到了一些问题。我不确定为什么在肯的例子中和/或序列被更改为或/和。和/或顺序似乎是正确的。无论如何,我运行了这个例子并且它有效。但是,我总共收到了 5 个案例。它适用于前两个简单的情况,所有情况都是和或或,以及情况 5,即上面的情况。但是案例 3 和 4 没有用。这是 XML 和结果。

示例 4:

结果:要满足条件,事件必须具有 A 和 BC 或 D 或 E 预期:要满足条件,事件必须具有 A 和 B 以及 C 或 D 或 E

我认为原因是 and/or or 仅在有多个 (position()>1) 测试时才输出。但这不会涵盖所有情况。也许如果节点数的位置()> 1 = 1?

如果这会使它更容易,可以添加“任何一个”元素。

回答注意事项:

这对于评论部分来说太长了,所以我在这里添加它。我相信@Ken 已经提供了答案,并且他建议的第二种方法是最好的。

如果我了解处理。我们正在匹配文档中的所有节点。我们匹配“事件”并首先执行,因为它嵌套在其他节点之外。然后,如果遇到“and”节点,我们会在“and”上得到一个匹配,然后我们迭代(for-each)该级别的所有“and”兄弟节点。我们不会为第一个节点输出单词“and”,因为测试“position() > 1”失败。我们总是使用 xls:text 输出一个空格。接下来我们从当前(上下文)节点()应用模板。这开始让我们沿着树向下走,因为我们现在只匹配“and”的子节点。如果我们接下来匹配一个“and”,我们将重复我们到目前为止所做的事情。如果我们接下来匹配一个“或”,我们会执行 match="or" 模板,这与“and”几乎相同 除了它输出单词“或”。但是,有两个可能的模板匹配“或”和 1]" priority="1">。priority="1" 将该匹配项的优先级设置为高于另一个“或”匹配项,因为除非指定了优先级, 匹配的默认优先级为 0.5. 因此如果当前 "or" 节点有 2 个子节点 (or[count(*) > 1]), 我们输出 "either" 然后调用这将允许较低优先级 "or"匹配运行。匹配的默认优先级为 0.5。因此,如果当前“or”节点有 2 个子节点(or[count(*) > 1]),我们输出“either”,然后调用将允许较低优先级的“or”匹配运行。匹配的默认优先级为 0.5。因此,如果当前“or”节点有 2 个子节点(or[count(*) > 1]),我们输出“either”,然后调用将允许较低优先级的“or”匹配运行。

我认为这是正确的,但我有一个问题。操作数的文本如何输出?

0 投票
7 回答
20267 浏览

r - R将语料库分成句子

  1. 我有许多 PDF 文档,我已将它们读入带有 library 的语料库tm。如何将语料库分解成句子?

  2. 可以readLines通过sentSplit从包qdap[*] 读取文件来完成。该功能需要一个数据框。它还需要放弃语料库并单独读取所有文件。

  3. 如何将函数sentSplit{ qdap} 传递给语料库tm?或者,还有更好的方法?。

注意:sentDetect library 中有一个函数openNLP,现在是Maxent_Sent_Token_Annotator- 同样的问题适用:如何将其与语料库 [tm] 结合使用?

0 投票
1 回答
71 浏览

c - 保存并在停止的地方重新启动循环

我开始用 C 做事,因为它引起了这种语言的很多关注。我做了一个混合了数字和字母的单词生成器。单词长度为 8,包含特定字符。

我请求帮助是因为我已经完成了正确生成单词的代码,并且每生成 20,000 个单词就会将最后一个单词保存在 txt 中,当你启动它时,它会检测到该单词并在控制台中显示它。

我喜欢做的是获取最后一个单词并将其发送到循环到循环,如果有的话,是单词的开头,而不是开头。

在这里你有代码,并提前感谢任何可以提供帮助的人。

0 投票
2 回答
3894 浏览

javascript - 如何创建 javascript 句子(或段落)生成器?

如何构建 javascript 句子(或段落)生成器?

我已经构建了一个生成器,当您单击一个按钮时,它会一次生成一个报价。报价显示在 2 个框内的文本区域内。

但我的问题是它一次只能显示一个报价。我希望能够将一堆半短语混合在一起组成一个段落

(IE。)

|汽车|是蓝色的。| 汽车 | 很快。|

另一个结果是:

|汽车 | 是绿色的。| 汽车 | 很快。|

  • “|”之间的内容是不同的结果。

Ps 我还希望所有内容都在一个文本区域中并通过单击生成。我已经完成了一些编码。我想改变它以使段落生成器成为可能。

原始代码:

CSS

Javascript

HTML

0 投票
1 回答
198 浏览

java - 尽可能多地匹配一个句子的单词

好的,我知道正则表达式不是最好的使用方法,但我相信除了编写完整的解析器和语法检查等等之外,它是最好的方法。

我想编写一个正则表达式以按特定顺序匹配尽可能多的标记,并编写另一个正则表达式以在句子中以任何顺序匹配尽可能多的标记。

例如,我编写了一个用于匹配单词的正则表达式,例如:

(?=.*?(I|need|your))(?=.*?(help|assistance|support|with|this|regex)).*?(?:\?)

它匹配:

I think I need your help? I need your assistance with this regex? I don't want your support.

但问题是它只匹配第一句中的“I”和“help”。在第二句中,它只匹配“I”和“assistance”。

我试图弄清楚如何让它尽可能多地匹配关键字,所以:

第一句话是“我”、“需要”、“帮助”。第二句的“我”、“需要”、“帮助”、“与”、“这个”、“正则表达式”。

但同时我不希望它匹配类似的东西:

“需要”、“我”、“与”、“帮助”,因为它不按顺序排列。

有没有办法我可以做到这一点?我通常使用以下方法测试我的正则表达式:http ://regex101.com/并g用作标志,但我不知道如何编写这样的正则表达式。

我能够使用"\\b[A-Za-z0-9-_]+\\b".

有什么提示吗?

0 投票
4 回答
1386 浏览

python - 句子中的加长单词检查

我想检查一个句子是否有拉长的单词。例如,soooo、tooooo、thaaatttt 等。现在我不知道用户可能会输入什么,因为我有一个句子列表,其中可能有也可能没有拉长的单词。我如何在python中检查它。我是 python 新手。

0 投票
1 回答
765 浏览

javascript - 使用 HTML5 和 javascript 播放连续声音以构建音频句子

我正在尝试为 phonegap 应用程序整理音频地图。我想构建简单的句子来创建方向。

为了缩小范围,我有一系列音频元素,我想连续播放这些元素以执行音频导航。例如:

在这篇文章的底部是我一直在使用但没有取得多大成功的简化代码。我不断收到错误。在建议使用 jplayer 或其他系统之前,在我看来,这些更适合播放能够阻止它们的歌曲。我不需要成熟的 jplayer 或其他风格的界面。我只需要人们按下按钮,以便他们可以通过音频地图系统进行引导。我在控制台中不断收到此错误:

我已经尝试将数组作为元素 ID 和变量。

我会很感激任何帮助。这是简化的脚本: