问题标签 [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
orientation - 意见挖掘 - 什么数据库类型?
我正在进入一个项目来进行意见挖掘(数据挖掘-> 网络挖掘-> 意见挖掘)以获取所包含单词的语义方向。我们将使用爬虫来获取页面意见。现在的问题是,我应该使用哪种类型的数据库(OO、关系、分层等),最好在这种类型的项目中使用。我知道这是一个具体的问题,我不期待每个人的回应,但至少有人已经这样做了,这会有所帮助。
问候!
data-mining - 即席查询工具模式
我正在寻找以图形方式实现临时查询功能的常见模式。我查看了 Access 和 TOAD 中的 SQL 查询构建器,但如果有人知道针对特定领域数据仓库(例如临床数据库)构建此类工具的产品,我很感兴趣。
谢谢,
algorithm - 网络挖掘分类算法
我的高级项目正在确定网页的主要类别。我爬取了 dmoz。现在我正在尝试构建 arff。之后我将使用一些特征提取方法和分类算法。您知道哪种特征提取方法在任何用于 Web 挖掘的分类算法中表现良好吗?
text - 显示相关内容或文章的技巧
我一直在尝试在集体智能领域学习文本挖掘和其他相关的东西。我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用程序。
什么算法有助于检索所需信息?
谢谢
/一个
java - 计算文本之间相似度的算法
我正在尝试对来自社交网络的帖子之间的相似性进行评分,但没有找到任何好的算法,想法?
我刚试过 Levenshtein、JaroWinkler 和其他人,但那些更习惯于比较没有情感的文本。在帖子中,我们可以看到一个文字说“我真的很喜欢狗”,而另一个文字说“我真的很讨厌狗”,我们需要将此案例归类为完全不同的案例。
谢谢
text - 文本挖掘从文本中提取动物类型
我需要做一个实验,我是 NLP 的新手。我读过解释理论问题的书籍,但在实践方面,我发现很难找到指南。所以请谁知道 NLP 中的任何事情,尤其是实际问题告诉我并指出正确的道路,因为我觉得我迷路了(有用的书籍、有用的工具和有用的网站)
我要做的是获取一个文本并在其中找到特定的单词,例如狗、猫等动物,然后我需要在每一侧提取这个单词和 2 个单词。例如
提取的文本将是
这将是我对机床的训练示例
Q1:将有大约 100 个与我上面解释的类似的训练示例。我使用 tocknizer 来提取单词,但我如何提取特定的单词(对于我们的示例,所有类型的动物),每边有 2 个单词。例如,我需要使用标签吗?或者你的想法是什么?
Q2:如果我有这些训练样例,我该如何准备合适的数据集给机床进行训练?我应该在这个数据集中写什么来指定动物,我应该提供其他特征吗?以及如何将其排列在数据集中。
你的很多话可能对我有很大帮助请不要犹豫告诉你所知道的
text - sas 生成所有可能的拼写错误
有谁知道如何生成可能的拼写错误?
示例:失业 - uemployment - onemploymnet -- 等等。
r - 将文档术语矩阵转换为包含大量数据的矩阵会导致溢出
让我们做一些文本挖掘
在这里,我支持一个文档术语矩阵(来自tm
包)
当我做一个
我看到它是一个“列表”,结构看起来像
所以我尝试一个
这适用于 1000 个文档。
但是当我尝试使用 40000 时,它不再适用了。
我收到此错误:
向量中的错误...:向量不能是 NA 附加:在 nr * nc NAs 中由整数溢出创建
所以我查看了 as.matrix ,结果发现该函数以某种方式将其转换为带有 as.vector 的向量而不是矩阵。到向量的转换有效,但从向量到矩阵的转换无效。
你有什么建议可能是什么问题?
谢谢,船长
.net - .net 图挖掘
简而言之,我需要一些关于我正在尝试实施的解决方案的建议。我正在使用.net 技术实现一个社交网络,我需要从收集并保存在数据库中的数据中推断出知识(一种图/链接挖掘)。我的问题是:
- 这个任务应该由商业智能工具来执行吗?
- 你知道任何 .net 框架来处理这种类型的信息(图表)吗?
- 我应该如何持久化结果数据?使用单独的数据库?