问题标签 [part-of-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 从文本文档中提取句子
我有一个文本文档,我想从中提取名词短语。在第一步中,我提取句子,然后对每个句子进行词性 (pos) 标记,然后使用 pos 进行分块。我使用 StanfordNLP 来完成这些任务,这是提取句子的代码。
我认为DocumentPreprocessor
在引擎盖下做一个 pos 以提取句子。但是,我也在做另一个 pos 来提取第二阶段的名词短语。也就是说, pos 执行了两次,因为 pos 是一项计算成本很高的任务,所以我正在寻找一种只执行一次的方法。有没有办法只做一次 pos 来提取句子和名词短语?
semantic-web - DBPedia Spotlight 是否仍然可用?
我正在玩一些文本的NER,然后出现了DBPedia Spotlight。
然而,
- 该网站:http : //spotlight.dbpedia.org/ 无法访问
- 2 演示:http ://dbpedia-spotlight.github.io/demo/和http://spotlight.dbpedia.org/demo/似乎不起作用
- 提供的示例网址:http ://spotlight.dbpedia.org/rest/spot/?text=Berlin&spotter=LingPipeSpotter%E2%80%99也不起作用
那么这项服务是否仍然可用?
有没有其他选择(我想从 PHP 访问它)?
python - WordNet - n 和数字代表什么?
我的问题与WordNet Interface有关。
我在or中找不到关于目的n
和以下内容的答案。number
cat.n.01
caterpillar.n.02
python - nltk(python)中的数字POS标签训练
为了创建一个自然语言计算器,我尝试了来自 nltk 的 TrigramTagger。我想在给定的句子中标记乘法和 2 个数字。例如:“什么是 5 和 7 的乘积”,这里的 'product' 是 'binary.multiply','5' 是 'num-1','7' 是 'num-2'。一旦我可以标记这 3 个,我就可以轻松计算答案。
但正如您在下面的输出中看到的那样,我无法针对这 2 个数字训练标注器。该数字必须与训练时完全相同,否则默认为“CD”。使用正则表达式或其他方式,我如何训练关于 num-1 和 num-2 的标记器?
这个程序的输出不能识别不同的数字为 num-1 和 num-2,如何让它识别呢?
machine-learning - 在文本中标记参考/引文
我需要找到一种方法来标记文本中对出版物的引用。我们一直在通过正则表达式执行此操作,但它不适用于这些新模式。
一些例子(语言是德语):
Herzog(2012 年 8 月),Einkommensteuerskriptum Band 1,S 8
Achatz/Bieber 在 Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)
Heinrich in Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32
Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293
Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG 23 (2013) § 13 Rz 67
因此,它主要以作者姓名和出版物的标题开始,但随后变得非常多样化。在示例中它可能看起来不那么糟糕,但我可以给出更多看起来不同的东西。
所以我认为这可能是机器学习的一项任务。然而,在该领域的经验很少,我发现很难找到合适的技术。
我找到了 POS 标记,但这似乎不是这里的方法。我也偶然发现了 upton CRF,但上面几乎没有什么材料可以让像我这样的初学者开始。
我已经在 sklearn 中进行了一些分类和回归,但仅此而已。
谁能指出我正确的方向?
python - Python:将 NLTK 斯坦福 POS 标签映射到 WordNet POS 标签
我正在阅读句子列表并使用 NLTK 的斯坦福 POS 标记器标记每个单词。我得到这样的输出:
输出:[[(u'feel', u'VB'), (u'great', u'JJ')], [(u'good', u'JJ')]]
我想将这些词与它们的 POS 进行映射,以便它们在 WordNet 中被识别。
我试过这个:
输出:[Synset('feel.v.01'), '[great, JJ]'], ['[good, JJ]']]
所以feel
被识别为动词,但great
不good
被识别为形容词。我还检查了是否great
并且good
实际上属于 Wordnet,因为我认为如果它们不存在,它们就不会被映射,但它们确实存在。任何人都可以帮忙吗?
python - POLYGLOT >> ValueError:在索引中找不到包 u'pos2.ms'
我学会了使用多语言给 POS 标记印度尼西亚文本。
但是出现了错误:
当我尝试下载 pos2.ms(Part-of-speech Model for Malay) 时,它在model中不存在。我应该怎么办?
**我使用 Ubuntu 和 python 2.7
感谢您之前的帮助
python - NLTK PoS 标记
我是 Python 新手,需要它来进行 PoS 标记。因此我尝试使用标准工具。我试图创建一个标记器并得到一个我不明白的 ValueError。我的代码:
我已经检查过了,tagged_sents 是所有句子的列表。每个句子 self 是一个元组列表(单词,PoS),就像在文档中一样:
:param train:一个标记语料库,由标记句子列表组成,其中每个句子都是(单词,标记)元组的列表。
为什么我会收到值错误?
ValueError:必须指定训练数据或训练模型。
nlp - 斯坦福 NLP POS Tagger 对非常简单的短语有问题?
我在使用 Stanford NLP Parser/POS Tagger 的应用程序中发现了不一致行为的示例,并且我能够在线复制它http://nlp.stanford.edu:8080/corenlp/process。我使用的是 3.60 版:
以下是我目前发现的 3 个问题:
- 有或没有不一致问题的点:
我知道语言相当模棱两可,但我想知道我是否可以信任这个库,即使是那些简单的短语。我也想知道我是否做错了什么。我单独尝试了每个示例的有问题的案例,或者换句话说,在单独的句子中尝试了问题,但问题仍然存在。
这是预期的行为:
任何帮助表示赞赏!谢谢
lambda - 斯坦福培训 Lambda 太大
我正在使用斯坦福 POS Tagger 来训练语料库。我准备了设置文件“Prop”并格式化数据并开始训练。
之后,我开始收到诸如“Lambda Too Big”之类的消息,并且这些消息一直出现,直到培训结束。之后我尝试了该模型并一直给我一个“内存不足异常”。我在具有超过 40gb RAM 的 HPC 上厌倦了模型,并增加了 java 的堆空间以使用 25gb,但同样的问题仍然存在。
我使用的语料库大约有 6000 个句子,一个句子中的最小单词数是 3,最大是 128 个单词。一个单词可以同时具有三个标签,例如 {p1}{p2}。
当我开始训练时,这里是日志:
此外,这里是 prop 文件中使用的设置:
谁能告诉我我做错了什么?