问题标签 [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 从句子列表中查找具有相似相对含义的句子与示例
我希望能够找到具有相同含义的句子。我有一个查询句子,以及一长串数百万其他句子。句子是单词,或称为符号的特殊类型的单词,它只是象征正在谈论的某个对象的一种单词。
例如,我的查询语句是:
示例:将 (x) 添加到 (y) 给出 (z)
我的数据库中可能已经存在一个句子列表,例如: 1. (x) 和 (y) 之和为 (z) 2. (x) 加 (y) 等于 (z) 3. (x) 相乘by (y) 不等于 (z) 4. (z) 是 (x) 和 (y) 之和
该示例应该匹配我的数据库中的句子 1、2、4 但不是 3。句子匹配也应该有一些权重。
它不仅仅是数学句子,它是任何可以根据单词含义与任何其他句子进行比较的句子。我需要一些方法来比较一个句子和许多其他句子,以找到具有密切相关含义的句子。即基于其含义的句子之间的映射。
谢谢!(标签是语言设计,因为我无法创建任何新标签)
c# - 是否可以使用 Azure 的文本分析来检测语音的一部分(名词、动词、形容词...)?
我正在开发 Microsoft Azure 的文本分析服务。它可以很好地从给定的非结构化文本中找到情感和关键字提取,但我更感兴趣的是从给定文本中找出词性。是否有任何解决方法或方法来实现这一目标?
python - tf.nn.embedding_lookup 函数有什么作用?
我无法理解此功能的职责。它像查找表吗?即返回每个id对应的参数(在ids中)?
例如,在skip-gram
模型中如果我们使用tf.nn.embedding_lookup(embeddings, train_inputs)
,那么对于每个train_input
它找到对应的嵌入?
python - 如何安装torchtext?
我的机器上安装了 PyTorch,但每当我尝试执行以下操作时 -
我收到以下错误。
如何安装torchtext?
python - 使用 Python 解析 PDF 教科书中的索引页面
我必须从 PDF 页面中提取文本,就像缩进到 CSV 文件中一样。
PDF教科书的索引页:
我应该将文本与页码一起拆分为类和子类类型层次结构。例如在图像中, Application server是类,Apache Tomcat是页码275中的子类
这是 CSV 的预期输出:
我已经使用 Tika 解析器来解析 PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类。
解析后的文本如下所示:
谁能建议我针对此要求的正确方法?
python-3.x - 如何在 TfidfVectorizer.fit_transform() 中传递用户定义的函数
我有文本预处理功能,它只是删除停用词:
我想传递text_preprocessing()
给另一个函数tf_idf()
,它给出了我本质上所做的特征矩阵:-
我收到一个错误TypeError: 'function' object is not iterable
python - 我如何从两个已经训练好的分类器中构建一个分类器?
我想将文本分类为正面、负面或中性。因此,我构建了两个不同的 SVM。第一个在负面和正面/中性之间进行分类,另一个在正面和负面/中性之间进行分类。如果两个分类器不同意,则输入是中性的。现在我想要两个将这两个分类器组合成一个分类器,它给出文本是正负还是中性的输出。我听说过 Voting 分类器,但这无济于事,因为它必须在事后进行训练。有没有办法从这两个中制作一个分类器?
python - 如何以编程方式从变形形式中获取单词的基本形式?
我想在python中找到输入词的基本形式
就像是
一个只处理常规形式的解决方案就可以了。但是,也可以处理不规则的答案将是完美的。
如果没有库可以做到这一点,那么 Web 服务也可以。
python - 如何分析列表中的名词
我想知道是否有办法分析列表中的名词。例如,如果有一种算法可以识别不同的类别,比如名词是“动物”、“植物”、“自然”等类别的一部分。我认为使用 Wordnet 可以实现这个结果,但是,如果我没记错的话,WordNet 中的所有名词都归类为“实体”。这是我的 WordNet 分析脚本:
结果是:[['entity'],['entity'],['entity'],['entity'],['entity'],['entity']]。
如果有任何可用的东西,有人可以建议我一些技术来检索名称所属的类别吗?提前致谢。
python - 文本中的日期识别 - 拉丁语
我正在研究一些包含日期的拉丁文本,并使用各种正则表达式模式和基于规则的语句来提取日期。我想知道我是否可以使用一种算法来训练来提取这些日期,而不是我目前使用的方法。谢谢
这是我的算法的摘录: