问题标签 [part-of-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
525 浏览

nlp - 从文本文档中提取句子

我有一个文本文档,我想从中提取名词短语。在第一步中,我提取句子,然后对每个句子进行词性 (pos) 标记,然后使用 pos 进行分块。我使用 StanfordNLP 来完成这些任务,这是提取句子的代码。

我认为DocumentPreprocessor在引擎盖下做一个 pos 以提取句子。但是,我也在做另一个 pos 来提取第二阶段的名词短语。也就是说, pos 执行了两次,因为 pos 是一项计算成本很高的任务,所以我正在寻找一种只执行一次的方法。有没有办法只做一次 pos 来提取句子和名词短语?

0 投票
1 回答
475 浏览

semantic-web - DBPedia Spotlight 是否仍然可用?

我正在玩一些文本的NER,然后出现了DBPedia Spotlight

然而,

  • 该网站:http : //spotlight.dbpedia.org/ 无法访问
  • 2 演示:http ://dbpedia-spotlight.github.io/demo/和http://spotlight.dbpedia.org/demo/似乎不起作用
  • 提供的示例网址:http ://spotlight.dbpedia.org/rest/spot/?text=Berlin&spotter=LingPipeSpotter%E2%80%99也不起作用

那么这项服务是否仍然可用?
有没有其他选择(我想从 PHP 访问它)?

0 投票
1 回答
2381 浏览

python - WordNet - n 和数字代表什么?

我的问题与WordNet Interface有关。

我在or中找不到关于目的n和以下内容的答案。numbercat.n.01caterpillar.n.02

0 投票
1 回答
676 浏览

python - nltk(python)中的数字POS标签训练

为了创建一个自然语言计算器,我尝试了来自 nltk 的 TrigramTagger。我想在给定的句子中标记乘法和 2 个数字。例如:“什么是 5 和 7 的乘积”,这里的 'product' 是 'binary.multiply','5' 是 'num-1','7' 是 'num-2'。一旦我可以标记这 3 个,我就可以轻松计算答案。

但正如您在下面的输出中看到的那样,我无法针对这 2 个数字训练标注器。该数字必须与训练时完全相同,否则默认为“CD”。使用正则表达式或其他方式,我如何训练关于 num-1 和 num-2 的标记器?

这个程序的输出不能识别不同的数字为 num-1 和 num-2,如何让它识别呢?

0 投票
0 回答
46 浏览

machine-learning - 在文本中标记参考/引文

我需要找到一种方法来标记文本中对出版物的引用。我们一直在通过正则表达式执行此操作,但它不适用于这些新模式。

一些例子(语言是德语):

Herzog(2012 年 8 月),Einkommensteuerskriptum Band 1,S 8

Achatz/Bieber 在 Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)

Heinrich in Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32

Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293

Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG 23 (2013) § 13 Rz 67

因此,它主要以作者姓名和出版物的标题开始,但随后变得非常多样化。在示例中它可能看起来不那么糟糕,但我可以给出更多看起来不同的东西。

所以我认为这可能是机器学习的一项任务。然而,在该领域的经验很少,我发现很难找到合适的技术。

我找到了 POS 标记,但这似乎不是这里的方法。我也偶然发现了 upton CRF,但上面几乎没有什么材料可以让像我这样的初学者开始。

我已经在 sklearn 中进行了一些分类和回归,但仅此而已。

谁能指出我正确的方向?

0 投票
2 回答
2869 浏览

python - Python:将 NLTK 斯坦福 POS 标签映射到 WordNet POS 标签

我正在阅读句子列表并使用 NLTK 的斯坦福 POS 标记器标记每个单词。我得到这样的输出:

输出:[[(u'feel', u'VB'), (u'great', u'JJ')], [(u'good', u'JJ')]]

我想将这些词与它们的 POS 进行映射,以便它们在 WordNet 中被识别。

我试过这个:

输出:[Synset('feel.v.01'), '[great, JJ]'], ['[good, JJ]']]

所以feel被识别为动词,但greatgood被识别为形容词。我还检查了是否great并且good实际上属于 Wordnet,因为我认为如果它们不存在,它们就不会被映射,但它们确实存在。任何人都可以帮忙吗?

0 投票
1 回答
1327 浏览

python - POLYGLOT >> ValueError:在索引中找不到包 u'pos2.ms'

我学会了使用多语言给 POS 标记印度尼西亚文本。

但是出现了错误:

当我尝试下载 pos2.ms(Part-of-speech Model for Malay) 时,它在model中不存在。我应该怎么办?

**我使用 Ubuntu 和 python 2.7

感谢您之前的帮助

0 投票
1 回答
859 浏览

python - NLTK PoS 标记

我是 Python 新手,需要它来进行 PoS 标记。因此我尝试使用标准工具。我试图创建一个标记器并得到一个我不明白的 ValueError。我的代码:

我已经检查过了,tagged_sents 是所有句子的列表。每个句子 self 是一个元组列表(单词,PoS),就像在文档中一样:

:param train:一个标记语料库,由标记句子列表组成,其中每个句子都是(单词,标记)元组的列表。

为什么我会收到值错误?

ValueError:必须指定训练数据或训练模型。

0 投票
2 回答
840 浏览

nlp - 斯坦福 NLP POS Tagger 对非常简单的短语有问题?

我在使用 Stanford NLP Parser/POS Tagger 的应用程序中发现了不一致行为的示例,并且我能够在线复制它http://nlp.stanford.edu:8080/corenlp/process。我使用的是 3.60 版:

以下是我目前发现的 3 个问题:

  • 有或没有不一致问题的点:

NLP 斯坦福 POS 标注器,带点和不带点

  • 被发现为名词的动词 在此处输入图像描述

  • 被标记为形容词的动词 在此处输入图像描述

我知道语言相当模棱两可,但我想知道我是否可以信任这个库,即使是那些简单的短语。我也想知道我是否做错了什么。我单独尝试了每个示例的有问题的案例,或者换句话说,在单独的句子中尝试了问题,但问题仍然存在。

这是预期的行为:

在此处输入图像描述

任何帮助表示赞赏!谢谢

0 投票
1 回答
109 浏览

lambda - 斯坦福培训 Lambda 太大

我正在使用斯坦福 POS Tagger 来训练语料库。我准备了设置文件“Prop”并格式化数据并开始训练。

之后,我开始收到诸如“Lambda Too Big”之类的消息,并且这些消息一直出现,直到培训结束。之后我尝试了该模型并一直给我一个“内存不足异常”。我在具有超过 40gb RAM 的 HPC 上厌倦了模型,并增加了 java 的堆空间以使用 25gb,但同样的问题仍然存在。

我使用的语料库大约有 6000 个句子,一个句子中的最小单词数是 3,最大是 128 个单词。一个单词可以同时具有三个标签,例如 {p1}{p2}。

当我开始训练时,这里是日志:

此外,这里是 prop 文件中使用的设置:

谁能告诉我我做错了什么?