“part-of-speech”的相关标签问题

0 投票

2 回答

525 浏览

nlp - 从文本文档中提取句子

我有一个文本文档，我想从中提取名词短语。在第一步中，我提取句子，然后对每个句子进行词性 (pos) 标记，然后使用 pos 进行分块。我使用 StanfordNLP 来完成这些任务，这是提取句子的代码。

我认为DocumentPreprocessor在引擎盖下做一个 pos 以提取句子。但是，我也在做另一个 pos 来提取第二阶段的名词短语。也就是说， pos 执行了两次，因为 pos 是一项计算成本很高的任务，所以我正在寻找一种只执行一次的方法。有没有办法只做一次 pos 来提取句子和名词短语？

2015-10-20T02:24:46.867

0 投票

1 回答

475 浏览

semantic-web - DBPedia Spotlight 是否仍然可用？

我正在玩一些文本的NER，然后出现了DBPedia Spotlight。

然而，

该网站：http : //spotlight.dbpedia.org/ 无法访问
2 演示：http ://dbpedia-spotlight.github.io/demo/和http://spotlight.dbpedia.org/demo/似乎不起作用
提供的示例网址：http ://spotlight.dbpedia.org/rest/spot/?text=Berlin&spotter=LingPipeSpotter%E2%80%99也不起作用

那么这项服务是否仍然可用？
有没有其他选择（我想从 PHP 访问它）？

semantic-web dbpedia named-entity-recognition part-of-speech spotlight-dbpedia

2015-12-22T10:26:04.403

0 投票

1 回答

2381 浏览

python - WordNet - n 和数字代表什么？

我的问题与WordNet Interface有关。

我在or中找不到关于目的n和以下内容的答案。numbercat.n.01caterpillar.n.02

python nlp nltk wordnet part-of-speech

2016-01-16T19:28:22.463

0 投票

1 回答

676 浏览

python - nltk（python）中的数字POS标签训练

为了创建一个自然语言计算器，我尝试了来自 nltk 的 TrigramTagger。我想在给定的句子中标记乘法和 2 个数字。例如：“什么是 5 和 7 的乘积”，这里的 'product' 是 'binary.multiply'，'5' 是 'num-1'，'7' 是 'num-2'。一旦我可以标记这 3 个，我就可以轻松计算答案。

但正如您在下面的输出中看到的那样，我无法针对这 2 个数字训练标注器。该数字必须与训练时完全相同，否则默认为“CD”。使用正则表达式或其他方式，我如何训练关于 num-1 和 num-2 的标记器？

这个程序的输出不能识别不同的数字为 num-1 和 num-2，如何让它识别呢？

python machine-learning nlp nltk part-of-speech

user2746898

2016-01-18T00:51:17.390

0 投票

0 回答

46 浏览

machine-learning - 在文本中标记参考/引文

我需要找到一种方法来标记文本中对出版物的引用。我们一直在通过正则表达式执行此操作，但它不适用于这些新模式。

一些例子（语言是德语）：

Herzog（2012 年 8 月），Einkommensteuerskriptum Band 1，S 8

Achatz/Bieber 在 Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)

Heinrich in Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32

Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293

Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG ²³ (2013) § 13 Rz 67

因此，它主要以作者姓名和出版物的标题开始，但随后变得非常多样化。在示例中它可能看起来不那么糟糕，但我可以给出更多看起来不同的东西。

所以我认为这可能是机器学习的一项任务。然而，在该领域的经验很少，我发现很难找到合适的技术。

我找到了 POS 标记，但这似乎不是这里的方法。我也偶然发现了 upton CRF，但上面几乎没有什么材料可以让像我这样的初学者开始。

我已经在 sklearn 中进行了一些分类和回归，但仅此而已。

谁能指出我正确的方向？

machine-learning nlp part-of-speech markov-random-fields

2016-01-22T08:59:02.033

0 投票

2 回答

2869 浏览