问题标签 [tagged-corpus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
515 浏览

arabic - 阿拉伯语标记语料库

请问有人知道免费的阿拉伯语标记语料库吗,因为我正在研究语法,我需要一个。
非常感谢。哈尼·阿尔穆斯利......

0 投票
3 回答
10505 浏览

nltk - 用于命名实体识别的免费标记语料库

我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?

0 投票
1 回答
504 浏览

nlp - 用于 NLP 应用程序的带有语义角色标签的语料库

所以,我构建了一个 NLP 程序,学习从句子中提取语义事件描述,但现在我的训练集仅限于我已经解析成语义事件组件的句子。

虽然这种方法确实可以完成工作,但它很难替代大量预先解析的文本语料库。不幸的是,我所有寻找这样一个语料库的尝试都被证明是徒劳的。

我特别需要的是一个语料库,它标记了句子中每个单词(或一组单词)的语义角色。我想到的角色示例如下:

  • 代理人
  • 行动
  • 病人
  • 乐器
  • 共同代理
  • 共同患者
  • 地点
  • 副词

如果需要更多细节,请随时询问,或参考这篇论文,该论文使用了与我的约束相同的玩具 corpa。

0 投票
2 回答
11636 浏览

python - 如何使用 python 和 NLTK 从 Penn Treebank 获取一组语法规则?

我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法来创建句子解析,但我想知道是否可以使用从 Penn Treebank 的一部分中学到的语法,而不是仅仅编写我自己的或使用玩具语法?(我在 Mac 上使用 Python 2.7)非常感谢

0 投票
2 回答
141 浏览

python - 将“字节跨度”匹配到文本文档,Python

我正在使用包含两组 .txt 文件的带注释的语料库。第一组包含被注释的文档(即文章、博客文章等),第二组包含实际的注释。将注释与注释文本匹配的方法是通过“字节跨度”。从自述文件中:

所以,问题:如何索引文档中的开始和结束字节,以便我可以将注释与原始文档中的文本相匹配?有任何想法吗?我正在用 Python 做这方面的工作......

0 投票
3 回答
1675 浏览

nlp - Wordnet (Word Sense Annotated) 语料库

我一直在使用许多不同的语料库进行自然语言处理,并且一直在寻找一个使用 Wordnet Word Senses 注释的语料库。

我知道可能没有包含这些信息的大型语料库,因为语料库需要手动建立,但必须有一些东西可以解决。

此外,如果不存在语料库,是否至少有一个带有语义注释的 ngram 数据库(一个词的每个定义占多少时间,或者每个 wordnet 定义的数字计数取决于词义的常见程度是)?

0 投票
0 回答
339 浏览

parsing - 用于创建树库的句法注释工具

你能推荐一个好的语法注释工具吗?我想创建一个小型(短语结构)树库。

我知道有一些用于依赖树库的工具,brat就是其中之一。 斯坦福解析器附带解析树查看器,但据我所知,您无法创建或编辑解析树。

先感谢您!

PS:我也试过WorkFreak,看起来不错,但它欢迎我有一些运行时异常:)

0 投票
3 回答
6096 浏览

python - 如何在整个 Penn Treebank 语料库上训练 NLTK?

我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:

但是,这在口语文本方面有所不足。例如,“你好”不应该被识别为感叹词。我从这里读到(在 NLTK pos_tag 中,为什么“hello”被归类为名词?)如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个单词英语口语。” 我现在的问题是我该怎么做?我来过这里(Penn Treebank Project),但在上面找不到任何东西。

如果对整个 Penn Treebank 进行培训太难了,还有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。

0 投票
1 回答
131 浏览

java - 匹配字节范围从注释到文本文档、Python 或 Java

我正在使用 MPQA 意见语料库,其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量(字节跨度),
例如 850,861

如何将这些字节跨度匹配到文本文档中?我很感激任何想法!我更喜欢使用 Python,但 Java 中的解决方案也很好。

0 投票
0 回答
492 浏览

python - 将文件加载到分类的纯文本语料库

我正在使用 ubuntu,作为我任务的一部分,我正在做文本情感分析。我正在制作一个训练集来使用 NaiveBayes 分类器对文本进行分类,我有许多包含句子的文件并保存为 sent1.txt,sent2.txt。. . 和一个名为 label.txt 的文件

label.txt 包含 sent1.txt:pos sent2.txt:pos ... sent 15:txt:neg sent16.txt:neg

所有发送的文件和 lable.txt 文件都存储在 \home\abha 中。我试过这个

请告诉我我的第三个论点应该是什么?

我在哪里存储 label.txt 文件和发送的文件有这么愚蠢的问题。