问题标签 [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - Tensorflow.js 分词器
我是机器学习和 Tensorflow 的新手,因为我不知道 python,所以我决定在那里使用 javascript 版本(可能更像是一个包装器)。
问题是我试图建立一个处理自然语言的模型。因此,第一步是对文本进行标记化,以便将数据提供给模型。我做了很多研究,但他们中的大多数都使用 python 版本的 tensorflow,使用的方法如下:tf.keras.preprocessing.text.Tokenizer
我在 tensorflow.js 中找不到类似的方法。我被困在这一步,不知道如何将文本传输到可以输入模型的向量。请帮忙 :)
nlp - 现有的 NLP 温暖/能力词典?
我正在为大量员工留下的反馈进行文本分析。我是一名研究人员,想为每条评论分配一个“热情”分数(热情=诸如“杰瑞很友好!”“莎拉很善良!”之类的评论),还有一个能力分数(例如“安娜非常有能力。”杰克非常擅长编程。”)。在我建立自己的字典来体现这些概念之前,我想看看那里是否有任何现有的字典。我知道有很多否定/肯定词的字典,但这不是我想要做的。我正在使用 R 来分析数据,但任何可导入格式的字典都可以使用。谢谢!
nlp - 查询映射到 NLIDB 系统中的数据库
在 NLIDB 中,我应该如何将查询中的单词映射到数据库属性?例如。我的数据库中的员工表中有 emp_name 属性,我的查询是“给所有员工的姓名”?
machine-learning - 信息检索系统中的关键字搜索与同义词
我开发了一个聊天机器人来为用户输入提供正确的答案。现在,我很难正确读取 DB/Knowledge Base 或 json 文件以提取正确答案。在我的用例中,我有很多关键字名称/实体以及同义词。因此,在 NLU 训练文件中手动编写同义词是个坏主意。我的数据库文件首先列出了关键字,然后针对属于该实体的每个意图将答案分开。在实践中,您如何处理此类关键字搜索以及用户给出的略有不同的关键字/同义词?
我对此的标准方法很感兴趣,将来我想应用 NLP 可能就像我的自定义案例中的词嵌入一样。
deep-learning - 使用深度学习混合文本和数字特征进行文本分类
我有一个关于将文本分类为几个类别(主题)的问题。除了文本之外,我还有一些我认为可能有用的数字特征(这些特征中也有缺失值)。但最重要的信息当然是在文本中呈现的。因此,我认为深度学习方法(使用通用管道:嵌入层 + CNN 或带有 dropout + Dense 层的 RNN)将是最佳选择。将仅适用于文本输入的当前模型与数字特征混合的最佳实践是什么?在这个领域是否有任何技巧、最佳常见做法、最先进的研究?有没有关于这个主题的论文/实验(可能在 GitHub 上)?
如果我们能概括地思考这个问题,那就太好了,但为了了解我们可以解决什么样的问题,我将举一个具体的例子。假设我们有来自用户的评论,他们描述了他们在接受服务或购买商品时遇到的问题。目标特征是多标签:与用户投诉相关联的一组标签(类别/主题)(我们应该在数百个可能的主题中选择相关的)。
然后除了用户的评论本身(这是最重要的特征)之外,我们可能还想考虑一些数字特征,如价格、等待时间、评级(客户满意度得分)等。这可能对预测一些有用的特定类别。
这个想法是以某种方式在深度学习模型中混合所有这些特征来生成最终模型。不确定我是否知道如何做到这一点的最佳方法。这类问题的最佳实践/有用的技巧是什么?
nltk - 哪个是命名实体识别的最佳库?斯坦福核心 nlp , NLTK 还是其他?
哪个是命名实体识别的最佳库:Stanford core nlp、NLTK 或其他?Java 是否拥有与 Python 一样好的库?
deep-learning - 发生异常,使用 %tb 查看完整回溯
我正在尝试在 yerevann 实现的 Theano 中实现动态内存网络。链接到该代码 - https://github.com/YerevNN/Dynamic-memory-networks-in-Theano。
在执行下面写的 main.py 文件后,我收到此错误:“发生异常,使用 %tb 查看完整的回溯。
系统出口:2"
我正在尝试实现的代码:
执行此代码后,这是我得到的错误:
发生异常,使用 %tb 查看完整的回溯。
系统退出:2
谁能告诉我这个例外是什么意思?
machine-learning - 如何使用python通过word2vec转换文本文件
我是 python 语言、自然语言处理、深度学习、神经网络的初学者。我想执行一个程序,通过在 python 中使用 word2vec 将文本文件转换为矢量。有人请帮助我
python - 在对书籍进行自然语言处理时如何连接对话行
我正在研究一本书的情绪分析项目。我正在使用 nltk.vader.sentimentintensityanalyzer 来记录哈利波特系列中段落的情感极性。
要创建段落并删除我所做的换行符:
这将本书分成几段。当谈到对话时,问题就出现了。
对话在每个角色的单词之间有相同的段落中断
如何编辑我的分解方法,使对话作为一个元素保持在一起?然后整个对话将用作强度分析器的单个输入。