问题标签 [part-of-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 使用多个文本文件训练斯坦福 POS 标注器
我有一个大约 20000 个文本文件的语料库,我想使用这些文本文件训练标注器,这样更好,将这些文本文件分组到一个文本文件中(我不知道它是否会影响标注准确性)或将所有这些文本文件包含在道具文件中?
r - 如何使用 R 读取 PoS 标记的 csv 文件?
我有一个 POS 标记数据的 CSV 文件(使用 Stanford NLP POS Tagger)。
例子:
最差_JJS支持_NN永远_RB NOT_RB BUY_VB只是_RB坏了_JJ电话_NN支持_NN不_NN关心_NN留在_VB离开_RB产品_NNS
最差_JJS服务_NNS购买_NN产品_NN
如何在 R 中读取 POS 标记的 CSV 文件?我正在尝试在 'tm' 包中使用 readTagged() 函数,但它显示以下错误:
textConnection(elem$content) 中的错误:“文本”参数无效
我已经尝试了 koRpus 包中的 read.tagged(),但它无法识别 Stanford NLP POS Tagger 的标签。
我的下一个问题是,是否可以阻止在 R 中保留 POS 标签的文本?
stanford-nlp - 为什么在 NER 之前使用引理
我正在使用斯坦福注释器 NER,我注意到引理是 NER 的先决条件。有人可以解释一下,为什么会这样。更重要的是,为什么我还要在做 NER 之前做 POS ?
斯坦福注释器的依赖关系在此处给出
python - 导出具有独立含义的 ngram 以输入可视化部分
通过一些客户评论,我得出了语料库中的重要主题[成本、副作用、生效时间]。现在对于每个主题,我想用这种方式进行情感分析:导出n个具有独立含义且与主题相关的克。例如,如您所见,图中有 3 个主题。在“time to take effect”主题中,“a while”或“not immediate”等短语是相关的 ngram。
我在 Python 中所做的:对于每个主题,我手动将语料库分为 2 个层次,
- 带有与主题相关的单词的句子
- 没有与主题相关的单词的句子
然后对于每个单词,我计算了过度索引,希望我们希望在句子中被过度索引的单词。(例如 ['It', 0.001] ['is', 0.001], ['n't', 0.002], ['immediate', 0.042], ['but', 0.002], ['it', 0.001 ], ['does',0.002], ['work', 0.002]) 但这不起作用,因为与主题无关的其他一些词具有非常高的过度索引值。
有没有其他选择可以推导出与主题相关的 n-gram?我的最终目标是产生这样的东西:
java - 使用 POS 标记器在首字母缩略词中正确检测名词
我正在为斯特拉斯堡的 CDS 开发一个自然语言搜索引擎。(斯特拉斯堡天文数据中心)
我想知道斯坦福词性标记器是如何标记首字母缩略词的,因为首字母缩略词有时被标记为 NNP,有时被标记为 NN。
我无法准确找到程序如何决定像“CDS”或“NASA”这样的首字母缩写词是 NNP 还是 NN。
如果有人可以在这个问题上帮助我,我会很高兴。:)
祝你有美好的一天。
nltk - NLTK single-word part-of-speech tagging
Is there a way to use NLTK to get a set of possible parts of speech of a single string of letters, taking into account that different words might have homonyms?
For example: report -> {Noun, Verb} , kind -> {Adjective, Noun}
I have not been able to find a POS-tokenizer that tags part-of-speech for words outside of the context of a full sentence. This seems like a very basic request of NLTK, so I'm confused as to why I've had so much trouble finding it.
python - 在句子中查找代词和名词之间的关系
我正在做一个 NLP 项目,我需要一个示例说明的以下功能。说有一句话
告诉山姆,因为他病了,他将不得不离开亚瑟。
在此声明中,第一个he
必须标记为 Sam,第二个标记he
为 Arthur。我在 Python 中工作。关于我可以用来获得以下功能的任何建议?
python - 如何在 Python 中为 Bigrams 进行 POS 标记
首先我必须承认我是 Python 或 R 的新手。
在这里,我试图创建一个包含二元/二元列表及其 POS 标签(NN、VB 等)的文件。这用于轻松识别有意义的二元组及其 POS 标签组合。
例如:二元组 - 'Gross' 'Profit' 具有 JJ 和 NN 的 POS 标签组合。但是二元组 - 'quarter' 'of' 具有 NN 和 IN 的 POS 标签组合。有了这个,我可以找到有意义的 POS 组合。它可能不准确。那也行。只是想研究它。
如需参考,请查看本页中的“2-gram 结果”部分。我的要求是这样的。但它是在 R 中完成的。所以它对我没有用。
正如我在 Python 中遇到的那样,POS 标记和二元组的创建可以使用 NLTK 或 TextBlob 包来完成。但是我找不到为 Python 中生成的二元词分配 POS 标签的逻辑。请参阅下面的代码和相关输出。
任何帮助深表感谢。提前致谢。
c++ - Hunspell 词性标注器?
有没有办法将 Hunspell 用作词性标注器?
它用于 C++,如果 Hunspell 不能,我们将使用 LanguageTool,但它涉及 JVM。
python - 'list' 对象在 wordnet 同义词集中没有属性 'lower' 问题
我正在尝试编写一个函数,该函数将返回一个 NLTK 定义列表,用于从文本文档中标记化的“标记”,受词性约束。
我首先将 nltk.pos_tag 给出的标签转换为 wordnet.synsets 使用的标签,然后依次应用 .word_tokenize()、.pos_tag()、.synsets,如下代码所示:
如果编程正确,它应该返回类似
但是,Python 会抛出错误消息:
我还注意到,在错误消息中,它说
这是否意味着我还需要像以前的线程所建议的那样“对我的令牌进行“词形化”?或者我应该在做所有这些之前在文本文档上应用 .lower() 吗?
我对 wordnet 比较陌生,真的不知道是 .synsets 导致了问题还是 nltk 部分有问题。如果有人能就此启发我,将不胜感激。
谢谢你。
[编辑] 错误回溯
因此,在使用@dugup 和 $udiboy1209 建议的代码后,我得到以下输出
现在的问题归结为从列表“syns”中提取每个列表的第一个匹配项(或第一个元素)并将它们放入一个新列表中。对于试用文档 'document is a test',它应该返回:
这是文本文档中每个标记的第一个匹配项的列表。