问题标签 [tagged-corpus]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

38 问题

0 投票

2 回答

515 浏览

arabic - 阿拉伯语标记语料库

请问有人知道免费的阿拉伯语标记语料库吗，因为我正在研究语法，我需要一个。
非常感谢。哈尼·阿尔穆斯利......

2009-09-17T12:40:16.893

0 投票

3 回答

10505 浏览

nltk - 用于命名实体识别的免费标记语料库

我正在寻找一个免费的标记语料库，用于训练命名实体识别的系统。我发现的大多数（比如纽约时报）都很贵而且不开放。任何人都可以帮忙吗？

nltk corpus named-entity-recognition tagged-corpus

2010-07-25T17:27:43.830

0 投票

1 回答

504 浏览

nlp - 用于 NLP 应用程序的带有语义角色标签的语料库

所以，我构建了一个 NLP 程序，学习从句子中提取语义事件描述，但现在我的训练集仅限于我已经解析成语义事件组件的句子。

虽然这种方法确实可以完成工作，但它很难替代大量预先解析的文本语料库。不幸的是，我所有寻找这样一个语料库的尝试都被证明是徒劳的。

我特别需要的是一个语料库，它标记了句子中每个单词（或一组单词）的语义角色。我想到的角色示例如下：

代理人
行动
病人
乐器
共同代理
共同患者
地点
副词

如果需要更多细节，请随时询问，或参考这篇论文，该论文使用了与我的约束相同的玩具 corpa。

nlp semantic-markup corpus tagged-corpus

2011-08-02T22:14:19.767

0 投票

2 回答

11636 浏览

python - 如何使用 python 和 NLTK 从 Penn Treebank 获取一组语法规则？

我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法来创建句子解析，但我想知道是否可以使用从 Penn Treebank 的一部分中学到的语法，而不是仅仅编写我自己的或使用玩具语法？（我在 Mac 上使用 Python 2.7）非常感谢

python parsing grammar nltk tagged-corpus

2011-08-14T13:13:35.943

0 投票

2 回答

141 浏览

python - 将“字节跨度”匹配到文本文档，Python

我正在使用包含两组 .txt 文件的带注释的语料库。第一组包含被注释的文档（即文章、博客文章等），第二组包含实际的注释。将注释与注释文本匹配的方法是通过“字节跨度”。从自述文件中：

所以，问题：如何索引文档中的开始和结束字节，以便我可以将注释与原始文档中的文本相匹配？有任何想法吗？我正在用 Python 做这方面的工作......

python nlp tagged-corpus

2011-10-28T20:21:13.480

0 投票

3 回答

1675 浏览

nlp - Wordnet (Word Sense Annotated) 语料库

我一直在使用许多不同的语料库进行自然语言处理，并且一直在寻找一个使用 Wordnet Word Senses 注释的语料库。

我知道可能没有包含这些信息的大型语料库，因为语料库需要手动建立，但必须有一些东西可以解决。

此外，如果不存在语料库，是否至少有一个带有语义注释的 ngram 数据库（一个词的每个定义占多少时间，或者每个 wordnet 定义的数字计数取决于词义的常见程度是）？

nlp wordnet corpus tagged-corpus

2012-01-11T16:19:24.177

0 投票

0 回答

339 浏览

parsing - 用于创建树库的句法注释工具

你能推荐一个好的语法注释工具吗？我想创建一个小型（短语结构）树库。

我知道有一些用于依赖树库的工具，brat就是其中之一。斯坦福解析器附带解析树查看器，但据我所知，您无法创建或编辑解析树。

先感谢您！

PS：我也试过WorkFreak，看起来不错，但它欢迎我有一些运行时异常:)

parsing nlp stanford-nlp tagged-corpus brat

2013-03-20T16:42:38.053

0 投票

3 回答

6096 浏览

python - 如何在整个 Penn Treebank 语料库上训练 NLTK？

我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器：

但是，这在口语文本方面有所不足。例如，“你好”不应该被识别为感叹词。我从这里读到（在 NLTK pos_tag 中，为什么“hello”被归类为名词？）如果我想标记口语文本，我将“需要在整个 Penn Treebank 上训练标记器，其中包括大约 300 万个单词英语口语。” 我现在的问题是我该怎么做？我来过这里（Penn Treebank Project），但在上面找不到任何东西。

如果对整个 Penn Treebank 进行培训太难了，还有什么替代方案？我正在考虑使用 Brown 语料库，但是 POS 标签不同，这让我不得不重写程序的其他部分。

python nlp nltk corpus tagged-corpus

2013-06-03T15:36:02.590

0 投票

1 回答

131 浏览

java - 匹配字节范围从注释到文本文档、Python 或 Java

我正在使用 MPQA 意见语料库，其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量（字节跨度），
例如 850,861

如何将这些字节跨度匹配到文本文档中？我很感激任何想法！我更喜欢使用 Python，但 Java 中的解决方案也很好。

java python nlp byte tagged-corpus

2013-07-16T12:42:54.883

0 投票

0 回答

492 浏览

python - 将文件加载到分类的纯文本语料库

我正在使用 ubuntu，作为我任务的一部分，我正在做文本情感分析。我正在制作一个训练集来使用 NaiveBayes 分类器对文本进行分类，我有许多包含句子的文件并保存为 sent1.txt,sent2.txt。. . 和一个名为 label.txt 的文件

label.txt 包含 sent1.txt:pos sent2.txt:pos ... sent 15:txt:neg sent16.txt:neg

所有发送的文件和 lable.txt 文件都存储在 \home\abha 中。我试过这个

请告诉我我的第三个论点应该是什么？

我在哪里存储 label.txt 文件和发送的文件有这么愚蠢的问题。

python ubuntu-12.04 nltk corpus tagged-corpus

2014-02-18T16:06:20.043

1 2 3 4 5 6 7 8 9 10

问题标签 [tagged-corpus]

Reference