问题标签 [linguistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1598 浏览

java - 语音标记的一部分 - 从哪里开始?

您好我想知道如何实现此类任务的解决方案:

有一个 500Mb 的纯英文文本文件。

我想收集有关单词频率的统计数据,但另外要确保正确识别每个单词(或大多数单词)。

用“她大声哭泣”句子中的“哭泣”而言,将被归类为名词,而“不要哭泣”将给统计数据提供动词。

此外,最好过滤专有名称,以便它们形成另一个字典。

另一个任务会更困难。我想找到经常出现的单词并建立此类出现的列表。

比方说,“绿草”、“美女”、“小心处理”、“你说得对”。这样我们就可以准确地说出语言中经常一起使用的词序列。

我将如何开始?是否有关于该主题的开放 Java 工具和好书?

0 投票
5 回答
1216 浏览

java - 构建修复拼写错误的自然语言模型

关于如何构建这样的自然语言解析程序的书籍有哪些:

它必须具有允许预测哪些单词拼写错误的语言模型!

关于如何构建这样一个工具的最好的书是什么?

ps 是否有免费的网络服务来进行拼写检查?也许来自谷歌?...

0 投票
6 回答
532 浏览

algorithm - 用常用词监控品牌

假设您应该在线监控品牌“ONE”。可以使用哪些算法将有关品牌 ONE 的页面与包含常用词 ONE 的页面分开?

我在想也许贝叶斯可以工作,但还有其他方法可以做到这一点吗?

0 投票
7 回答
5026 浏览

java - 为单词搜索游戏选择随机字母的算法,允许拼写许多单词

我正在制作一个类似字谜的文字游戏。给用户一个像这样的字母网格:

用户使用任何相邻的字母链来挑选一个单词,例如中间行的单词“STACK”。然后使用的字母被机器替换,例如(小写的新字母):

请注意,您现在可以使用新字母拼写“OVeRFLoW”。我的问题是:我可以使用什么算法来挑选新字母,以最大限度地增加用户可以拼写的长单词的数量?我希望游戏有趣并且有时会涉及拼写例如 6 个字母的单词,但是,如果您选择了糟糕的字母,游戏只会让用户拼写 3 个字母的单词,而没有机会找到更大的单词。

例如:

  • 您可以从字母表中随机选择新字母。这效果不好。

  • 同样,我发现随机选择但使用 Scrabble 中的字母频率效果不佳。我认为这在拼字游戏中效果更好,因为您对使用字母的顺序的限制较少。

  • 我尝试了一组列表,每个列表代表 Boggle 游戏中的一个骰子,每个字母都会从随机骰子一侧挑选出来(我也想知道我是否可以在产品中合法地使用这些数据)。我没有注意到这运作良好。我想 Boggle 骰子的面是以某种明智的方式选择的,但我不知道这是怎么做的。

我考虑过的一些想法:

  • 制作一个表格,说明字典中字母对一起出现的频率。为了争论起见,假设 E 在 30% 的时间出现在 A 旁边。When picking a new letter, I would randomly pick a letter based on the frequency of this letter occurring next to a randomly chosen adjacent letter on the grid. 例如,如果相邻字母是 E,则新字母将有 30% 的时间是“A”。这应该意味着有很多不错的对散布在地图上。我可以通过制作一个字母出现在其他两个字母之间的概率表来改进这一点。

  • 以某种方式搜索当前网格上可以拼写的单词,将新字母作为通配符。然后我会用允许拼写最大单词的字母替换通配符。但是,我不确定您将如何有效地做到这一点。

任何其他想法表示赞赏。我想知道是否有解决这个问题的通用方法以及其他文字游戏使用什么。

编辑:感谢到目前为止的精彩回答!我忘了提一下,如果可能的话,我的目标是低内存/cpu 要求,我可能会使用 SOWPODS 字典(大约 250,000),我的网格将能够达到 6 x 6。

0 投票
2 回答
883 浏览

java - 如何借助词袋进行概念表示

感谢您停下来阅读我的问题 :) 这是一个非常甜蜜的地方,到处都是伟大的人民!

我有一个关于“用单词创建句子”的问题。不不,这与英语语法无关:)

让我解释一下,如果我有一袋子的话

它可以生成某种以下句子

我不知道这个主题将涉及哪个领域。我应该在哪里尝试找到答案。我试图搜索谷歌,但我只找到了英语语法的东西:)

有谁能告诉我哪种算法可以解决这个问题?或任何程序

谢谢

PS:这不是一个任务:)如果是我会要求源代码!我什至不知道我应该在哪个领域寻找:)

0 投票
4 回答
1314 浏览

machine-learning - 词中关系的分类?

我不确定用于单词关系分类的最佳算法是什么。例如,在“The yellow sun”这样的句子中,黄色和太阳之间存在关系。到目前为止,我考虑过的机器学习技术是贝叶斯统计、粗糙集、模糊逻辑、隐马尔可夫模型和人工神经网络。

请问有什么建议吗?

谢谢你 :)

0 投票
4 回答
4162 浏览

alignment - 自然语言处理 - 单词对齐

我正在寻找单词对齐工具和算法。
我正在处理双语英语 - 印地语文本,目前正在研究

您能否建议任何其他与语言无关且可以实现并行英语印地语语料库及其评估的统计词对齐的算法/工具。
有些工具最适合某些语言;你能告诉我这是多么真实吗?如果是这样,你能否提供一个更适合印地语等亚洲语言的例子。也欢迎我不应该对此类语言使用的反例。

我听说过一些关于Uplug 字对齐器的信息......有人可以告诉我这个工具是否对我的目的有用。

谢谢.. :)

0 投票
2 回答
945 浏览

java - 如何在 Java 中结合英语单词?

假设我有一个词的基本形式和Penn Treebank Tag Set中的一个标签。我怎样才能得到共轭形式?例如对于“做”和“VBN”我怎样才能“完成”?

我认为这个任务已经在一些 nlp 库中实现了,所以我宁愿不发明自行车。存在这样的东西吗?

0 投票
6 回答
5995 浏览

nlp - 否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试。

例如,给定一个像“这本书很好”这样的句子,提供任意数量的替代句子,意思是相反的,比如“这本书不好”甚至“这本书很糟糕”。

显然,以高精度完成此任务可能超出了当前 NLP 的范围,但我确信已经有一些关于该主题的工作。如果有人知道任何工作,请给我指出一些文件吗?

0 投票
5 回答
3999 浏览

nlp - 我在哪里可以找到英语短语列表?

我的任务是搜索文本中陈词滥调和常用短语的使用。这些短语类似于您可能会在命运之轮上看到的短语拼图的短语。这里有一些例子:

  • 来得容易去得也快
  • 难以置信
  • 胜利不是一切

但是,我找不到短语列表。有人知道这样的清单吗?

说真的,即使是所有命运之轮解决方案的列表也足够了。