问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 Ubuntu Lucid 上安装 R 文本挖掘包
R 新手,正在尝试安装文本挖掘包 (tm)。但是,当我这样做时
install.packages("tm",dependencies=TRUE)
我收到以下错误:
有什么想法吗?
提前致谢。
r - 如何从 R 访问维基百科?
是否有任何 R 包允许查询 Wikipedia(很可能使用 Mediawiki API)以获取与此类查询相关的可用文章列表,以及导入所选文章以进行文本挖掘?
ruby - 自由线性如何使用它
一般来说,我在机器学习和文本挖掘方面相当陌生。我注意到存在一个名为 Liblinear https://github.com/tomz/liblinear-ruby-swig的 ruby 库。
到目前为止,我想做的是训练软件识别文本是否提到与自行车相关的任何内容。
有人可以突出我应该遵循的步骤(即:预处理文本和如何),共享资源并理想地分享一个简单的例子来让我继续前进。
任何帮助都可以,谢谢!
python - 将单词分类为“好”和“坏”
我有一个域名列表,想确定域名是否看起来像色情网站。有什么更好的方法来做到这一点?色情域名列表看起来像http://dumpz.org/56957/。该域可用于教系统色情域的外观。我还有其他列表 - http://dumpz.org/56960/ - 这个列表的许多域也是色情的,我想通过名称来确定它们。
python - Mining Wikipedia 用于映射关系以进行文本挖掘
我计划开发一个基于 Web 的应用程序,它可以爬取维基百科以查找关系并将其存储在数据库中。通过关系,我的意思是搜索一个名字,比如“比尔盖茨”并找到他的页面,下载它并从页面中提取各种信息并将其存储在数据库中。信息可能包括他的出生日期、他的公司和其他一些信息。但我需要知道是否有任何方法可以从页面中找到这些唯一数据,以便我可以将它们存储在数据库中。任何特定的书籍或算法将不胜感激。还提到好的开源库会有所帮助。
谢谢你
regex - 从pdf文件中提取邮政地址
是否有任何库/工具包可以帮助我从非结构化 PDF 文档(例如信件)中提取邮政地址信息?如果没有,您将如何处理这项任务?
我考虑过使用开源 PDF 库并使用正则表达式模式搜索信息,但我不确定是否可以使用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有涉及文本挖掘,而只是处理高度结构化的数据。也许从事自然语言处理的人知道有用的库或工具包?
nlp - 潜在狄利克雷分配与文档聚类的关系
我想澄清潜在狄利克雷分配(LDA)和文档聚类的一般任务之间的关系。
LDA 分析倾向于输出每个文档的主题比例。如果我的理解是正确的,这不是文档聚类的直接结果。但是,我们可以将此概率比例视为每个文档的特征表示。之后,我们可以根据 LDA 分析生成的特征配置调用其他已建立的聚类方法。
我的理解正确吗?谢谢。
r - R 文本挖掘包:允许将新文档合并到现有语料库中
我想知道 R 的文本挖掘包是否有可能具有以下功能:
理想情况下,我想将其他文档合并到现有的语料库中。
任何帮助表示赞赏
nlp - 纯统计,还是自然语言处理引擎?
有哪些统计引擎可以产生比 OpenNLP 工具套件更好的结果(如果有的话)?我正在寻找的是一个从文本中挑选关键字并提供这些动词和名词的词干的引擎,也许自然语言处理不是这里的方法。该引擎还应该使用不同的语言。
r - R文本挖掘包DocumentTermMatrix在控制列表中有一个字典占用太多内存
我注意到它DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))
消耗的内存比DocumentTermMatrix(myCorpus)
为什么会这样?
有什么线索吗?
这是代码片段:
现在这是我的问题:
我猜有内存泄漏和可能的错误。