问题标签 [natural-language-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
19 浏览

python - 如何从文件夹中分离两个不同命名的文本文件。是否有任何分类器直接基于赋予文件的标题

我有一个文件夹作为工作,其中有 1500 个文件,有两种不同类型的文件,如协议和修订。我的任务是构建一个分类器,将两个不同的文件分开并放在两个不同的文件夹中。

0 投票
1 回答
521 浏览

python - 没有空格时的词分词

我想知道机器学习、深度学习或自然语言处理中的术语,当它们之间没有空格时,它们会在段落中分割单词。

示例:“iwanttocook”

变成:“我想做饭”

这并不容易,因为您没有标记单词的字符。

我很感激任何帮助

0 投票
1 回答
3609 浏览

keras - 我可以在 Keras Dense Layer 上使用 3D 输入吗?

作为练习,我只需要使用密集层来执行文本分类。我想利用词嵌入,问题是数据集是 3D 的(样本、句子的词、嵌入维度)。我可以将 3D 数据集输入到密集层吗?

谢谢

0 投票
1 回答
1308 浏览

nlp - 无法更新 VADER 词典

print(news['title'][5]) 秘鲁-厄瓜多尔边境地区发生7.5级地震

print(analyser.polarity_scores(news['title'][5])) {'neg':0.0,'neu':1.0,'pos':0.0,'compound':0.0}

正面:[] 中性:['Magnitude', '7.5', 'quake', 'hits', 'Peru-Ecuador', 'border', 'region', '-', 'The', 'Hindu'] 负面:[]

分数:{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

{'neg':0.0,'neu':1.0,'pos':0.0,'compound':0.0}

正面:[] 中性:['Magnitude', '7.5', 'quake', 'hits', 'Peru-Ecuador', 'border', 'region', '-', 'The', 'Hindu'] 负面:[]

分数:{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

0 投票
0 回答
36 浏览

r - 文本预测模型数值表达警告

我从不同的 ngram 计数(Uni、Bi、Tri)创建了三个数据帧,每个数据帧包含分离的 ngram、频率计数(n),并使用平滑增加了概率。

我编写了三个函数来查看表格并根据输入字符串返回最可能的单词。并绑定了他们

但是,我收到以下警告消息,并且输出始终是同一个单词。如果我只使用 bigramwords 函数,它可以正常工作,但是在添加 trigram 函数时,我会收到警告消息。我相信它,因为 1:n 定义不正确。

0 投票
0 回答
57 浏览

logic - 时间逻辑(例如 LTL)存储库

我目前正在处理通过时间逻辑(例如 LTL)形式化自然语言文本内容的问题。

一个例子是短语

“当一列火车靠近时,一列火车终将横穿”,

应该对应于 LTL 规范,例如

G(train_approaching ---> F(train_crossing))

我想将此问题视为从自然语言到 LTL 的翻译任务。为了训练翻译模型,除其他外,我需要一个适当的训练集,其中每个实例都应由自然语言文本表示,并与相应的 LTL(或另一种时间逻辑)公式配对。

我已经找到了这些资源:

当然,总体目标是处理全逻辑,但是我也可能会首先关注基于时间逻辑的模式的子集。

您知道我可以为此目的用作训练数据的任何其他数据集吗?

0 投票
1 回答
1867 浏览

neural-network - 如何修改pytorch中的rnn单元格?

如果我想更改 RNN 单元(例如 GRU 单元)中的计算规则,我应该怎么做?
考虑到效率问题,我不想通过 for 或 while 循环来实现它。
我查看了 pytorch 的源代码,但似乎 rnn 单元的主要组件是用我无法找到和修改的 c 代码实现的。你可以通过一个例子来回答这个问题:在没有现有版本的情况下实现 GRU 单元。

谢谢~

0 投票
2 回答
70 浏览

nlp - Tamarian 语言的上下文无关语法

我正在尝试找出Tamarian语言的 CFG。我认为对于英语,起始符号S通常以生产规则开头S -> NP VP。这意味着我们可以将一个典型的句子分成几个部分,Noun Phrase并且Verb Phrase从那里推导。
我的问题是,什么是 CFG,或者至少是 Tamarian 语言的第一条生产规则。部分例句如下:

“Sinda 他的脸变黑了,眼睛变红了”
“Darmok 和 Jalad 在 Tanagra”
“Picard 和 Dathan 在 Eladrel”
“Marab 与帆展开”

0 投票
1 回答
51 浏览

search - 如何使用 NLP 技术创建搜索,以搜索输入的命名实体以及它可能具有的任何潜在名称变体?

我目前正在使用 TextBlob 制作一个聊天机器人,到目前为止,我一直在使用名词短语提取来提取命名实体并找到 pos 标签 NNP。当输入诸如“Will Smith 的最新单曲?”之类的测试用户问题时,我正确地检索到了“Will Smith”。但我希望不仅能够搜索“will smith”,还能够搜索“william smith”、“bill smith”、“willie smith”、“billy smith”——基本上是其他众所周知的英文名称变体。我正在使用 Spotipy API,因为我正在尝试检索 Spotify 艺术家。我目前在 PyCharm 中所做的事情:

0 投票
1 回答
165 浏览

python - 许多 nltk 包方法/工具都不起作用

1)我尝试了名为 /Natural Language Processing 的 nltk 包的官方书籍中的代码,但它给出了错误

我得到错误

NLTK 无法找到 mace4 文件!使用软件特定的配置参数或设置 PROVER9 环境变量。

2)我尝试使用书中的另一个代码:

我得到了错误

AttributeError:模块“nltk”没有属性“DrtParser”

3)我尝试了以下代码:

它有效,但仍然出现以下错误:

AttributeError:“CooperStore”对象没有属性“核心”

4)我尝试了书中的另一个代码:

我收到以下错误:

NotImplementedError:使用 label() 访问节点标签。

请让我知道该怎么做?这些功能是否已弃用,因为我听说 nltk 的许多功能都已弃用。请为提到的所有这些功能提出一条出路。