我的机器上有数百万条文字新闻。我想对其进行一些文本挖掘。
我想首先以更有条理的方式存储最新的文本新闻。最好的方法是什么?所以以后做数据挖掘会更方便。
目前我只是将这些新闻文件存储在由新闻标题和文件路径索引的数据库中。
任何建议将不胜感激。谢谢!
这在很大程度上取决于您希望使用更结构化的数据来实现什么。
如果数据量不大,您可以在数据库上使用“文本”搜索,您已经完成了。
像 stackoverflow 上这样的类别或“标签”将极大地帮助对您的内容进行分类和分组,但我想现在很难从纯文本库中提取它。
一个简单的时间戳(您可以从文件本身获取,但要小心一些系统会在文件被复制时更改该日期......)也可以提供帮助。
对于内容提取,请查看http://www.opencalais.com/,它提供了一个用于“文本”分析的 api,您可能会觉得有趣。
“做一些文本挖掘”是什么意思?您只是想存储文本吗?或者,您是否正在寻找解决方案?
许多数据库提供存储文本并对其进行快速检索的能力。
然而,文本挖掘通常涵盖更广泛的主题。这里有些例子:
对于此类分析,您通常会使用文本挖掘工具(例如,您可以在kdnuggets.com上查找这些工具)。然后,该工具会影响文本的存储方式。
“营销、销售和客户支持的数据挖掘技术”的最后一章是关于文本挖掘的,并且有一个非常好的案例研究将文本挖掘应用于客户服务记录。
[回应评论]
这是一个学术项目还是“现实世界”?文本是单语的吗?如果有,是英文的吗?你肯定需要做一些研究。至少从 Alan Turing 在 1930 年代提出图灵测试以来,文本分析/挖掘一直是一个相当深入的研究领域。
例如,我可以很容易地想到四种非常不同的选项来存储文本以供分析。第一个是“原样”,如果您有很多处理器和内存,这将是最有用的。第二个是“语法”,用语法和含义标记文本,如果你的团队有很多博士,这是最有效的。第三是作为倒排索引,它是搜索和一些邻近匹配的基本形式。第四种是投影到正交空间,使用奇异值分解(如果您想将文本用作其他统计技术的输入,则最有用)。