4

听起来可能很愚蠢,但是您知道如何构建文本语料库吗?我到处搜索并且已经存在语料库,但我想知道他们是如何构建它的?例如,如果我想构建带有正面和负面推文的语料库,那么我只需要制作两个文件吗?但是那些文件的内部呢?不明白(((( 在此示例中,他将 pos 和 neg 推文存储在 RedisDB 中。

4

1 回答 1

4

但是那些文件的内部呢?

这主要取决于您使用的库。XML(带有各种标签)很常见,每行一个句子也是如此。棘手的部分是首先获取数据。

例如,如果我想构建带有正面和负面推文的语料库

这是否意味着您想知道如何将推文标记为正面和负面?如果是这样,您正在寻找的是所谓的文本分类或语义分析。

如果您想查找一堆推文,我会查看其中一个页面(仅来自我自己的快速搜索)。

Clickonf5:http ://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/

Quora:http: //quora.com/What-is-the-best-tool-to-download-and-archive-Twitter-data-of-certain-hashtags-and-mentions-for-academic-research

谷歌群组:http ://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI

对于如何创建语料库的一般学习,我会查看 Richard Xiao 的Handbook of Natural Language Processing Wiki

于 2012-07-18T00:26:08.000 回答