问题标签 [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何从文件夹中分离两个不同命名的文本文件。是否有任何分类器直接基于赋予文件的标题
我有一个文件夹作为工作,其中有 1500 个文件,有两种不同类型的文件,如协议和修订。我的任务是构建一个分类器,将两个不同的文件分开并放在两个不同的文件夹中。
python - 没有空格时的词分词
我想知道机器学习、深度学习或自然语言处理中的术语,当它们之间没有空格时,它们会在段落中分割单词。
示例:“iwanttocook”
变成:“我想做饭”
这并不容易,因为您没有标记单词的字符。
我很感激任何帮助
keras - 我可以在 Keras Dense Layer 上使用 3D 输入吗?
作为练习,我只需要使用密集层来执行文本分类。我想利用词嵌入,问题是数据集是 3D 的(样本、句子的词、嵌入维度)。我可以将 3D 数据集输入到密集层吗?
谢谢
nlp - 无法更新 VADER 词典
print(news['title'][5])
秘鲁-厄瓜多尔边境地区发生7.5级地震
print(analyser.polarity_scores(news['title'][5]))
{'neg':0.0,'neu':1.0,'pos':0.0,'compound':0.0}
正面:[] 中性:['Magnitude', '7.5', 'quake', 'hits', 'Peru-Ecuador', 'border', 'region', '-', 'The', 'Hindu'] 负面:[]
分数:{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
{'neg':0.0,'neu':1.0,'pos':0.0,'compound':0.0}
正面:[] 中性:['Magnitude', '7.5', 'quake', 'hits', 'Peru-Ecuador', 'border', 'region', '-', 'The', 'Hindu'] 负面:[]
分数:{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
r - 文本预测模型数值表达警告
我从不同的 ngram 计数(Uni、Bi、Tri)创建了三个数据帧,每个数据帧包含分离的 ngram、频率计数(n),并使用平滑增加了概率。
我编写了三个函数来查看表格并根据输入字符串返回最可能的单词。并绑定了他们
但是,我收到以下警告消息,并且输出始终是同一个单词。如果我只使用 bigramwords 函数,它可以正常工作,但是在添加 trigram 函数时,我会收到警告消息。我相信它,因为 1:n 定义不正确。
logic - 时间逻辑(例如 LTL)存储库
我目前正在处理通过时间逻辑(例如 LTL)形式化自然语言文本内容的问题。
一个例子是短语
“当一列火车靠近时,一列火车终将横穿”,
应该对应于 LTL 规范,例如
G(train_approaching ---> F(train_crossing))
我想将此问题视为从自然语言到 LTL 的翻译任务。为了训练翻译模型,除其他外,我需要一个适当的训练集,其中每个实例都应由自然语言文本表示,并与相应的 LTL(或另一种时间逻辑)公式配对。
我已经找到了这些资源:
- http://patterns.projects.cs.ksu.edu/documentation/patterns/ltl.shtml属性模式的存储库(基于 LTL),总共大约 100 个实例
- https://gitlab.lrz.de/i7/ltlstore LTL Store,它是 LTL 公式的存储库,但没有配对的自然语言文本(它仍然可以用作“单语”训练数据)
当然,总体目标是处理全逻辑,但是我也可能会首先关注基于时间逻辑的模式的子集。
您知道我可以为此目的用作训练数据的任何其他数据集吗?
neural-network - 如何修改pytorch中的rnn单元格?
如果我想更改 RNN 单元(例如 GRU 单元)中的计算规则,我应该怎么做?
考虑到效率问题,我不想通过 for 或 while 循环来实现它。
我查看了 pytorch 的源代码,但似乎 rnn 单元的主要组件是用我无法找到和修改的 c 代码实现的。你可以通过一个例子来回答这个问题:在没有现有版本的情况下实现 GRU 单元。
谢谢~
nlp - Tamarian 语言的上下文无关语法
我正在尝试找出Tamarian语言的 CFG。我认为对于英语,起始符号S
通常以生产规则开头S -> NP VP
。这意味着我们可以将一个典型的句子分成几个部分,Noun Phrase
并且Verb Phrase
从那里推导。
我的问题是,什么是 CFG,或者至少是 Tamarian 语言的第一条生产规则。部分例句如下:
“Sinda 他的脸变黑了,眼睛变红了”
“Darmok 和 Jalad 在 Tanagra”
“Picard 和 Dathan 在 Eladrel”
“Marab 与帆展开”
search - 如何使用 NLP 技术创建搜索,以搜索输入的命名实体以及它可能具有的任何潜在名称变体?
我目前正在使用 TextBlob 制作一个聊天机器人,到目前为止,我一直在使用名词短语提取来提取命名实体并找到 pos 标签 NNP。当输入诸如“Will Smith 的最新单曲?”之类的测试用户问题时,我正确地检索到了“Will Smith”。但我希望不仅能够搜索“will smith”,还能够搜索“william smith”、“bill smith”、“willie smith”、“billy smith”——基本上是其他众所周知的英文名称变体。我正在使用 Spotipy API,因为我正在尝试检索 Spotify 艺术家。我目前在 PyCharm 中所做的事情:
python - 许多 nltk 包方法/工具都不起作用
1)我尝试了名为 /Natural Language Processing 的 nltk 包的官方书籍中的代码,但它给出了错误
我得到错误
NLTK 无法找到 mace4 文件!使用软件特定的配置参数或设置 PROVER9 环境变量。
2)我尝试使用书中的另一个代码:
我得到了错误
AttributeError:模块“nltk”没有属性“DrtParser”
3)我尝试了以下代码:
它有效,但仍然出现以下错误:
AttributeError:“CooperStore”对象没有属性“核心”
4)我尝试了书中的另一个代码:
我收到以下错误:
NotImplementedError:使用 label() 访问节点标签。
请让我知道该怎么做?这些功能是否已弃用,因为我听说 nltk 的许多功能都已弃用。请为提到的所有这些功能提出一条出路。