问题标签 [natural-language-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
4967 浏览

nlp - 从句子列表中查找具有相似相对含义的句子与示例

我希望能够找到具有相同含义的句子。我有一个查询句子,以及一长串数百万其他句子。句子是单词,或称为符号的特殊类型的单词,它只是象征正在谈论的某个对象的一种单词。

例如,我的查询语句是:

示例:将 (x) 添加到 (y) 给出 (z)

我的数据库中可能已经存在一个句子列表,例如: 1. (x) 和 (y) 之和为 (z) 2. (x) 加 (y) 等于 (z) 3. (x) 相乘by (y) 不等于 (z) 4. (z) 是 (x) 和 (y) 之和

该示例应该匹配我的数据库中的句子 1、2、4 但不是 3。句子匹配也应该有一些权重。

它不仅仅是数学句子,它是任何可以根据单词含义与任何其他句子进行比较的句子。我需要一些方法来比较一个句子和许多其他句子,以找到具有密切相关含义的句子。即基于其含义的句子之间的映射。

谢谢!(标签是语言设计,因为我无法创建任何新标签)

0 投票
1 回答
1202 浏览

c# - 是否可以使用 Azure 的文本分析来检测语音的一部分(名词、动词、形容词...)?

我正在开发 Microsoft Azure 的文本分析服务。它可以很好地从给定的非结构化文本中找到情感和关键字提取,但我更感兴趣的是从给定文本中找出词性。是否有任何解决方法或方法来实现这一目标?

0 投票
8 回答
73717 浏览

python - tf.nn.embedding_lookup 函数有什么作用?

我无法理解此功能的职责。它像查找表吗?即返回每个id对应的参数(在ids中)?

例如,在skip-gram模型中如果我们使用tf.nn.embedding_lookup(embeddings, train_inputs),那么对于每个train_input它找到对应的嵌入?

0 投票
8 回答
30532 浏览

python - 如何安装torchtext?

我的机器上安装了 PyTorch,但每当我尝试执行以下操作时 -

我收到以下错误。

如何安装torchtext?

0 投票
2 回答
2582 浏览

python - 使用 Python 解析 PDF 教科书中的索引页面

我必须从 PDF 页面中提取文本,就像缩进到 CSV 文件中一样。

PDF教科书的索引页:

我应该将文本与页码一起拆分为类和子类类型层次结构。例如在图像中, Application server是类,Apache Tomcat是页码275中的子类

这是 CSV 的预期输出:

我已经使用 Tika 解析器来解析 PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类。

解析后的文本如下所示:

谁能建议我针对此要求的正确方法?

0 投票
1 回答
217 浏览

python-3.x - 如何在 TfidfVectorizer.fit_transform() 中传递用户定义的函数

我有文本预处理功能,它只是删除停用词:

我想传递text_preprocessing()给另一个函数tf_idf(),它给出了我本质上所做的特征矩阵:-

我收到一个错误TypeError: 'function' object is not iterable

0 投票
1 回答
43 浏览

python - 我如何从两个已经训练好的分类器中构建一个分类器?

我想将文本分类为正面、负面或中性。因此,我构建了两个不同的 SVM。第一个在负面和正面/中性之间进行分类,另一个在正面和负面/中性之间进行分类。如果两个分类器不同意,则输入是中性的。现在我想要两个将这两个分类器组合成一个分类器,它给出文本是正负还是中性的输出。我听说过 Voting 分类器,但这无济于事,因为它必须在事后进行训练。有没有办法从这两个中制作一个分类器?

0 投票
1 回答
598 浏览

python - 如何以编程方式从变形形式中获取单词的基本形式?

我想在python中找到输入词的基本形式

就像是

一个只处理常规形式的解决方案就可以了。但是,也可以处理不规则的答案将是完美的。

如果没有库可以做到这一点,那么 Web 服务也可以。

0 投票
1 回答
79 浏览

python - 如何分析列表中的名词

我想知道是否有办法分析列表中的名词。例如,如果有一种算法可以识别不同的类别,比如名词是“动物”、“植物”、“自然”等类别的一部分。我认为使用 Wordnet 可以实现这个结果,但是,如果我没记错的话,WordNet 中的所有名词都归类为“实体”。这是我的 WordNet 分析脚本:

结果是:[['entity'],['entity'],['entity'],['entity'],['entity'],['entity']]。

如果有任何可用的东西,有人可以建议我一些技术来检索名称所属的类别吗?提前致谢。

0 投票
1 回答
98 浏览

python - 文本中的日期识别 - 拉丁语

我正在研究一些包含日期的拉丁文本,并使用各种正则表达式模式和基于规则的语句来提取日期。我想知道我是否可以使用一种算法来训练来提取这些日期,而不是我目前使用的方法。谢谢

这是我的算法的摘录: