问题标签 [tagged-corpus]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
arabic - 阿拉伯语标记语料库
请问有人知道免费的阿拉伯语标记语料库吗,因为我正在研究语法,我需要一个。
非常感谢。哈尼·阿尔穆斯利......
nltk - 用于命名实体识别的免费标记语料库
我正在寻找一个免费的标记语料库,用于训练命名实体识别的系统。我发现的大多数(比如纽约时报)都很贵而且不开放。任何人都可以帮忙吗?
nlp - 用于 NLP 应用程序的带有语义角色标签的语料库
所以,我构建了一个 NLP 程序,学习从句子中提取语义事件描述,但现在我的训练集仅限于我已经解析成语义事件组件的句子。
虽然这种方法确实可以完成工作,但它很难替代大量预先解析的文本语料库。不幸的是,我所有寻找这样一个语料库的尝试都被证明是徒劳的。
我特别需要的是一个语料库,它标记了句子中每个单词(或一组单词)的语义角色。我想到的角色示例如下:
- 代理人
- 行动
- 病人
- 乐器
- 共同代理
- 共同患者
- 地点
- 副词
如果需要更多细节,请随时询问,或参考这篇论文,该论文使用了与我的约束相同的玩具 corpa。
python - 如何使用 python 和 NLTK 从 Penn Treebank 获取一组语法规则?
我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法来创建句子解析,但我想知道是否可以使用从 Penn Treebank 的一部分中学到的语法,而不是仅仅编写我自己的或使用玩具语法?(我在 Mac 上使用 Python 2.7)非常感谢
python - 将“字节跨度”匹配到文本文档,Python
我正在使用包含两组 .txt 文件的带注释的语料库。第一组包含被注释的文档(即文章、博客文章等),第二组包含实际的注释。将注释与注释文本匹配的方法是通过“字节跨度”。从自述文件中:
所以,问题:如何索引文档中的开始和结束字节,以便我可以将注释与原始文档中的文本相匹配?有任何想法吗?我正在用 Python 做这方面的工作......
nlp - Wordnet (Word Sense Annotated) 语料库
我一直在使用许多不同的语料库进行自然语言处理,并且一直在寻找一个使用 Wordnet Word Senses 注释的语料库。
我知道可能没有包含这些信息的大型语料库,因为语料库需要手动建立,但必须有一些东西可以解决。
此外,如果不存在语料库,是否至少有一个带有语义注释的 ngram 数据库(一个词的每个定义占多少时间,或者每个 wordnet 定义的数字计数取决于词义的常见程度是)?
python - 如何在整个 Penn Treebank 语料库上训练 NLTK?
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:
但是,这在口语文本方面有所不足。例如,“你好”不应该被识别为感叹词。我从这里读到(在 NLTK pos_tag 中,为什么“hello”被归类为名词?)如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个单词英语口语。” 我现在的问题是我该怎么做?我来过这里(Penn Treebank Project),但在上面找不到任何东西。
如果对整个 Penn Treebank 进行培训太难了,还有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。
java - 匹配字节范围从注释到文本文档、Python 或 Java
我正在使用 MPQA 意见语料库,其中注释和文档保存在单独的文件中。注释文件包含文档中的字符偏移量(字节跨度),
例如 850,861
如何将这些字节跨度匹配到文本文档中?我很感激任何想法!我更喜欢使用 Python,但 Java 中的解决方案也很好。
python - 将文件加载到分类的纯文本语料库
我正在使用 ubuntu,作为我任务的一部分,我正在做文本情感分析。我正在制作一个训练集来使用 NaiveBayes 分类器对文本进行分类,我有许多包含句子的文件并保存为 sent1.txt,sent2.txt。. . 和一个名为 label.txt 的文件
label.txt 包含 sent1.txt:pos sent2.txt:pos ... sent 15:txt:neg sent16.txt:neg
所有发送的文件和 lable.txt 文件都存储在 \home\abha 中。我试过这个
请告诉我我的第三个论点应该是什么?
我在哪里存储 label.txt 文件和发送的文件有这么愚蠢的问题。