问题标签 [natural-language-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
183 浏览

deep-learning - how does LSTM and GRU gates decide which word to keep in the memory

the update gate in a GRU decides which word to keep in the cell or to be clear what is the cell state. how does the update gate in gru decide when to be close to 1 and when to be close to 0? Basically, how does it decide to keep a word and not to keep a word? Thanks

0 投票
3 回答
652 浏览

python - 用于在文档中查找有意义的词对的 Python 工具

我正在编写一个程序,该程序从 Twitter 收集推文,并评估文本以找到热门话题。我计划使用 NLTK 来阻止条款并对数据进行一些其他操作。

我需要的是一个工具,它可以确定推文中的两个相邻单词是否应该被视为一个词。例如,如果“假新闻”在 Twitter 上流行,我不想将这两个词视为不同的词。另一个例子,如果每个人都在推特上谈论“计算机科学”,那么将计算机和科学视为两个不同的术语是没有意义的,因为它们指的是同一个主题。是否存在可以找到此类术语的工具?

0 投票
0 回答
82 浏览

python - 无监督机器翻译 Facebook 研究

我对来自 facebook 研究的这个模型有疑问https://github.com/facebookresearch/UnsupervisedMT

我想修改训练过程,但要做到这一点,我需要更好地理解代码。特别是在文件UnsupervisedMT/NMT/src/trainer.py 里面def enc_dec_step的第 472 行

我无法理解解码器函数到底在做什么,以及为什么它需要sent2作为参数。我的意思是,我认为 self.decoder() 是一个函数,它从语言 1 获取句子 1 的编码状态,以在语言 2 的整个词汇表 (lang2_id) 上输出激活的二维张量,并且执行次数与它输出的句子的单词数,因此输出应该是大小的张量(输出句子的长度)x(词汇中的单词数),但我不明白为什么它甚至需要成对的句子(sent2)要做到这一点。

无论如何,这只是猜测,重点是我想详细看看这个函数到底在做什么,但是我对编码仍然不是很好,所以我找不到这个函数是在哪里定义的。

据我了解,它可能是它正在初始化一个 TransformerDecoder 的实例(它取决于设置),但即使是这样,我也不知道如何理解实际发生的事情,而且它似乎我认为这没有任何意义。

任何人都可以帮忙吗?

0 投票
1 回答
297 浏览

python - 使用保存的 Word2Vec 模型时发出警告

运行此代码时出现此警告

错误:

0 投票
2 回答
82 浏览

regex - 可以使用 NLP 吗?自然语言处理

我有一组项目名称、一组关键字和一组段落。

现在我的任务是,检查关键字是否匹配任何项目名称,关键字是否匹配任何段落中的任何单词。

如果任何一组段落与关键字匹配并且任何项目与相同关键字匹配,那么我必须将这些段落分配给该项目。

我一直在为此使用字符串正则表达式。但这可以使用自然语言处理概念来实现吗?

如果是...请让我知道如何实施。这对我很有帮助。

提前致谢。

0 投票
1 回答
428 浏览

dialogflow-es - RASA /Dialogflow 到 SNIPS NLU

有人知道一个好的 Rasa NLU 或 Dialogflow 转换器到 SNIPS 格式吗?也许带有图形用户界面。

有些可以从 rasa 转换为 DF,反之亦然,但我似乎找不到转换为 SNIPS 的转换器。

谢谢

0 投票
1 回答
339 浏览

java - CoreNLP 的共指解析

我正在尝试让 CoreNLP 访问 CorefChains。我的意图是像“他,她,......”这样的词将被他们最好的提及所取代,但我无法访问 CorefChains(它们始终为空)。

0 投票
0 回答
712 浏览

python - 小写的句子 - 为什么要先拆分?

我正在学习如何处理文本数据的基础知识,目前正在进行将句子转换为小写的预处理操作。我找到的所有教程都执行以下操作:

但在我看来,更方便的调用可以是以下

我完全理解它们会产生不同的结果,因为第一个调用还将所有空白字符转换为“”,而另一个则保留了它们。

但如果我们只用“”分割,它们将是相同的

如果每个人都进行拆分然后转换,那么这种方法在实践中更有优势吗?

0 投票
2 回答
333 浏览

nlp - 使用 CoreNLP 将句子分割成子句

我正在解决以下问题:我想使用 Stanford CoreNLP 将句子分成子句。例句可能是:

我现在希望将我的句子拆分为单个“S”,如下面的树形图所示:

在此处输入图像描述

我希望输出是一个带有单个“S”的列表,如下所示:

我会非常感谢任何帮助:)

0 投票
1 回答
197 浏览

python - Python Html:从 html 文件中提取部分文本

我目前正在做一个项目,我下载了一堆相关的 html 文件并从中收集数据。我注意到的一件事是,尽管 html 文件的整体格式相似,但有时不同的文件使用不同的标签来存储相似的信息。

例如,在一个文件中可能是:

在另一个例子中,它可能是:

我可以肯定地说“标题: ”和“作者: ”在所有 html 文件中都很常见。我想提取“标题: ”和“作者: ”旁边的文本。我假设我使用漂亮的汤来提取每个 html 文件。但是要提取TitleAuthor,最好使用正则表达式吗?