问题标签 [linguistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1771 浏览

nlp - 如何根据上下文从文本中提取单词

我想从用户提供的文本语句中提取相关词。例如。对于“矩形有几条边?”这个问题。单词应该是“矩形”、“边”、“许多”、“如何”。

我们发现我的目标是建立一个 NLP 问答系统。但是现在我只想从问题中提取所需的关键字,问题的范围不是很大。

我遇到过各种数据挖掘工具,但不太确定它们是否真的对此有用。它们似乎有点太高级或不完全相关。

请让我知道是否有任何适合要求的工具,或者我应该继续尝试自己编码。

请提供您认为可能有帮助的任何类型的指针。

0 投票
5 回答
781 浏览

c# - 从较长的字符串创建短的人类可读的字符串

我需要收缩一个字符串,例如...

你会考虑成为机器人吗?您将获得免费的年度换油服务。”

...到更短但仍然可以识别的内容(需要从选择列表中找到 - 我当前的解决方案让用户输入任意标题仅用于选择)

我想只提取形成问题的字符串部分(如果可能),然后以某种方式将其简化为类似

会考虑成为机器人

是否有任何语法算法可以帮助我解决这个问题?我在想可能有一些东西可以让 be 挑选出动词和名词

因为这只是作为一把钥匙,所以它不一定是完美的;我并不是要贬低英语固有的复杂性。

0 投票
3 回答
626 浏览

ruby - 如何在 ruby​​ 中保存我的浮点数

所以我正在尝试一些代码来将数字转换为字符串。但是,我注意到在某些情况下,它不会保留最后两位小数。例如,我输入 1.01 和 1.04 进行加法,然后返回 2.04。如果我只输入 1.05 它会保留数字并准确地返回它。我知道发生了什么事情正在四舍五入。我不知道如何防止它被四舍五入。我是否应该只考虑将 (1.01+1.04) 发送给 self 作为一个输入?

警告!我还没有尝试过,所以不知道它是否支持:

到目前为止我所拥有的:

谢谢您的帮助!贴一些代码,我可以试试!

0 投票
2 回答
153 浏览

generator - 编写特定领域的文本生成器

我的一个朋友从事房地产行业,在向我展示了为房地产广告撰写文案的艺术后,我意识到这是非常公式化的。特别是在在线广告时,因为您填写了预定义的字段。

自然地,我考虑创建一个几乎可以自动编写广告的生成器。我不指望它会产生出色甚至非常好的文案,只是它可以像人类一样将单词和句子组合在一起。

我有一个定义广告的骨架/模板,我还整理了一组可以随机选择的短语和单词,但我对编写这样一个生成器的更一般方面感兴趣?我可以阅读任何建议、提示或文献以更好地理解这个小项目?

0 投票
2 回答
156 浏览

dictionary - 我在哪里可以获得我的应用程序的双语词典?

我想知道是否有地方可以为我的程序获取开放格式的双语词典。到目前为止,我只想有几个语言对:eng-esp、eng-frn、ger-esp,比方说。到目前为止,我用谷歌搜索并潜伏,但没有成功。

0 投票
3 回答
136 浏览

nlp - 是否有一种算法可以识别句子中不同形式的“你”又名如何解析英语句子

如何判断“你”在句子中是用作主语还是宾语?

0 投票
2 回答
1350 浏览

nlp - 在哪里可以找到德语的性别和复数词表?

我正在尝试编写一个简单的文本挖掘应用程序来尝试分辨德语单词的性别和复数形式。

所以,首先,我需要一个用于训练的大词汇表。我四处搜索,但找不到任何具有性别或复数形式的列表。

0 投票
1 回答
1715 浏览

linguistics - 理解 semcor 语料库结构 h

我正在学习自然语言处理。我目前正在玩 Word Sense Disambiguation。我打算使用 semcor 语料库作为训练数据,但我无法理解 xml 结构。我尝试使用谷歌搜索,但没有得到任何描述 semcor 内容结构的资源。

  • 我假设 wnsn 是“词义”。这是正确的吗?
  • lexsn 属性是什么意思?它如何映射到 wordnet?
  • 属性 pn 指的是什么?(第三行)
  • rdf 属性是如何分配的?(又是第三行)
  • 一般来说,可能的属性是什么?
0 投票
3 回答
536 浏览

compare - 语言特定怪癖的 Damerau-Levenshtein 距离

对于说荷兰语的人来说,两个字符“ij”被认为是一个很容易与“y”交换的字母。

对于我正在从事的项目,我希望有一个Damerau-Levenshtein 距离的变体,它将“ij”和“y”之间的距离计算为 1,而不是当前值 2。

我自己一直在尝试,但失败了。我的问题是我不知道如何处理两个文本长度不同的事实。有没有人有关于如何解决这个问题的建议/代码片段?

谢谢。

0 投票
2 回答
3970 浏览

r - 从文本中提取“((Adj|Noun)+|((Adj|Noun)(Noun-Prep)?)(Adj|Noun))Noun” (Justeson & Katz, 1995)

我想询问是否可以在 R 包中提取 Justeson 和 Katz (1995) 提出的((Adj|Noun)+|((Adj|Noun)(Noun-Prep)?)(Adj|Noun))Noun开放式自然语言处理?

也就是说,我想使用这种语言过滤来提取候选名词短语。

我不能很好地理解它的含义。

您能否帮我解释一下或将这种表示形式转换为 R 语言。

非常感谢。

也许我们可以从以下位置开始示例代码:

我被告知要为此提出一个新问题。原来的问题在这里