问题标签 [part-of-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 python 中从树构建语法
我有一个文本语料库,其中包含用词性标签表示为树的句子。我想建立一个系统,可以从这个树形结构中学习概率语法。是否有任何内置的 python 模块可以解决这个问题,还是我必须构建一个解析器?
java - 使用词性标注器计算每个词性的数量
我想计算例如副词,但不同类型有不同的标签,“_RB”、“_RBR”和“_RBS”。我尝试使用 3 个序列中的子字符串,但这消除了找到更长标签的可能性 - “_RB”与“_RBS”。我在 Java 中使用斯坦福 POS 标记器,但我不知道如何计算每种类型的标记。这是我到目前为止所拥有的:
tagged 是标记的字符串。
这是一个示例标记字符串:
python - nltk pos标签脏话
有没有办法使用NLTK显示给定文本中的填充词?如果没有,有人知道我在哪里可以得到一个带有英文填充词的单词表吗?谢谢你
已解决:从 nltk.corpus 导入停用词
php - 情绪分析算法建议
我已经实现了简单的朴素贝叶斯分类器和用于情感分析的 k-nn。我正在对情绪分析算法进行比较研究。我想再实现一种情绪分析算法。我研究过 maxent 最大熵模型,但我不知道如何实现它。任何人都可以指导我如何实现它,或者可以提供任何有用的链接。
我的主要目标是将facebook状态或任何句子分类为正面或负面
如果您知道任何其他算法,请建议我提供一些指导来实现它。
c# - 根据数据库文件确定英文词性标注
我有点困惑如何确定英语的词性标记。在这种情况下,我假设英语中的一个单词有一种类型,例如单词“book”被识别为 NOUN,而不是 VERB。我想根据时态识别英语句子。例如,“I sent the book”被识别为过去时。
描述:
我有许多数据库 (*.txt) 文件:NounList.txt、verbList.txt、adjectiveList.txt、adverbList.txt、connectionList.txt、prepositionList.txt、articleList.txt。如果数据库中有输入词,我假设可以推断出这些词的类型。但是,如何开始在数据库中查找呢?例如,“I sent the book”:如何开始在数据库中搜索每个单词,“I”作为名词,“sent”作为动词,“the”作为文章,“book”作为名词?有比在每个数据库中搜索每个单词更好的方法吗?我怀疑每个数据库都有独特的元素。
我在这里附上我的观点。
POS 标记是我在作业中的次要解释。所以我使用一种简单的方法来确定基于数据库的 POS 标记。但是,如果有更简单的方法:易于使用、易于理解、易于获取伪代码、易于设计……确定 POS 标记,请告诉我。
python - 如何在带有 POS 标记的语料库文件中更改短语动词的词序
我有一个带有 POS 标记的并行语料库文本文件,我想在其中进行单词重新排序,以便“可分离的短语动词粒子”将出现在短语动词的“动词”旁边(“制定计划”而不是'制定计划')。这用于统计机器翻译系统中的预处理。以下是 POS 标记文本文件中的一些示例行:
- you_PRP mean_VBP we_PRP should_MD kick_VB them_PRP out_RP ._。
- don_VB 't_NNP take_VB it_PRP off_RP until_IN I_PRP say_VBP so_RB ._.
- 请_VB help_VB the_DT man_NN out_RP ._。
- 关闭_VBZ it_PRP down_RP !_。
我想将所有粒子(在示例中:out_RP、off_RP、out_RP、down_RP)移动到最接近的前面动词(即与粒子组合构成短语动词的动词)旁边。以下是更改词序后线条的外观:
- you_PRP mean_VBP we_PRP should_MD kick_VB out_RP them_PRP ._。
- don_VB 't_NNP take_VB off_RP it_PRP until_IN I_PRP say_VBP so_RB ._.
- 请_VB help_VB out_RP the_DT man_NN ._。
- 关闭_VBZ down_RP it_PRP !_。
到目前为止,我已经尝试使用 python 和正则表达式通过 re.findall 对问题进行排序:
这将在词序 1 中找到所有短语动词(见下文),但这是我所能得到的,因为我无法弄清楚如何将粒子移动到动词旁边。任何想法如何正确解决这个问题(不一定使用python和正则表达式)?我希望能够搜索所有短语动词并按以下词序移动粒子:
(使用的标签取自 Penn Treebank 标签集(http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)(x表示可选字符,以包含所有动词形式,并且* 表示通配符))
- *_VBx+*_DT+*_NN+*_RP
- *_VBx+*_DT+*_NNS+*_RP
- *_ VBx+ * _DT+*_.JJ+*_NN+*_RP
*_ VBx+ * _DT+*_.JJ+*_NNS+*_RP
*_VBx+*_PRP$+*_NN+*_RP
- *_VBx+*_PRP$+*_NNS+*_RP
- *_ VBx +* _PRP$+*_.JJ+*_NN+*_RP
*_ VBx +* _PRP$+*_.JJ+*_NNS+*_RP
*_VBx+*_NNP+*_RP
*_VBx+*_JJ+*_NNP+*_RP
*_VBx+*_NNPS+*_RP
*_VBx+*_PRP+*_RP
在此先感谢您的帮助!
python - 如何提取与文本文件中的正则表达式匹配的行号
我正在做一个关于统计机器翻译的项目,其中我需要从带有正则表达式的 POS 标记文本文件中提取行号(任何带有粒子“out”的非分隔短语动词),并写下行号到一个文件(在python中)。
我有这个正则表达式:'\w*_VB.?\sout_RP' 和我的 POS 标记文本文件:'Corpus.txt'。我想得到一个行号与上述正则表达式匹配的输出文件,并且输出文件每行应该只有一个行号(没有空行),例如:
2
5
44
到目前为止,我的脚本中只有以下内容:
知道如何解决这个问题吗?
在此先感谢您的帮助!
python - 从列表中列出最常见的列表
我有这个代码
它打开一个文本文件,每行一个 POS 标签。然后它将前 5 个 POS 标签列表添加到 mylist,然后将其添加到 metalist。然后它向下移动到下一行并创建下一个 5 个 POS 标签序列。文本文件总共有大约 110k~ 个标签。我需要从金属师那里找到最常见的 POS 标签序列。我尝试使用计数器集合,但列表不可散列。解决这个问题的最佳方法是什么?
corpus - 用英语以外的其他语言为 Brill Tagger 训练语料库
有谁知道在英语以外的其他语言中使用 Brill 词性 (POS) 标记器的任何标记语料库或词典?
谢谢!
java - 在先前标记的句子上使用斯坦福依赖解析器
我目前正在使用此处提供的 Twitter POS 标记器将推文标记到 Penn-Tree Bank 标签中。
这是该代码:
现在我需要确定直接对象在这些标签中的位置。经过一番搜索,我发现 Stanford Parser 可以通过 Stanford Typed Dependencies 做到这一点(在线示例)。通过使用 dobj() 调用,我应该能够得到我需要的东西。
但是,我还没有找到任何关于如何将已标记的句子输入此工具的好的文档。据我了解,在使用 Dependency Parser 之前,我需要从句子的标记/标签创建一棵树。这是怎么做到的?我找不到任何示例代码。
Twitter POS Tagger 包含一个 Stanford NLP Tools 的实例,所以我离得不远,但是我对 Stanford 工具不够熟悉,无法将我的 POS 标记文本输入到其中以使依赖项解析器正常工作. 常见问题解答确实提到了这个功能,但是没有任何示例代码可以关闭,我有点卡住了。