问题标签 [mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
717 浏览

orientation - 意见挖掘 - 什么数据库类型?

我正在进入一个项目来进行意见挖掘(数据挖掘-> 网络挖掘-> 意见挖掘)以获取所包含单词的语义方向。我们将使用爬虫来获取页面意见。现在的问题是,我应该使用哪种类型的数据库(OO、关系、分层等),最好在这种类型的项目中使用。我知道这是一个具体的问题,我不期待每个人的回应,但至少有人已经这样做了,这会有所帮助。

问候!

0 投票
2 回答
794 浏览

data-mining - 即席查询工具模式

我正在寻找以图形方式实现临时查询功能的常见模式。我查看了 Access 和 TOAD 中的 SQL 查询构建器,但如果有人知道针对特定领域数据仓库(例如临床数据库)构建此类工具的产品,我很感兴趣。

谢谢,

0 投票
1 回答
2016 浏览

algorithm - 网络挖掘分类算法

我的高级项目正在确定网页的主要类别。我爬取了 dmoz。现在我正在尝试构建 arff。之后我将使用一些特征提取方法和分类算法。您知道哪种特征提取方法在任何用于 Web 挖掘的分类算法中表现良好吗?

0 投票
3 回答
3005 浏览

image - 好的元数据图像转储实用程序?

我正在寻找最好的工具来提取嵌入在最流行的图像文件格式(特别是 JPEG 和 PNG)中的任何和所有元数据。我想知道里面有什么(XMP、Exif、IPTC/IIM 等)。理想情况下,我正在寻找一种可以从命令行运行的一体化解决方案,但有兴趣了解该领域中任何其他有价值的工具。

我发现了以下内容,每个都有优点/缺点:

0 投票
2 回答
280 浏览

text - 显示相关内容或文章的技巧

我一直在尝试在集体智能领域学习文本挖掘和其他相关的东西。我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用程序。

什么算法有助于检索所需信息?

谢谢

/一个

0 投票
3 回答
2614 浏览

java - 计算文本之间相似度的算法

我正在尝试对来自社交网络的帖子之间的相似性进行评分,但没有找到任何好的算法,想法?

我刚试过 Levenshtein、JaroWinkler 和其他人,但那些更习惯于比较没有情感的文本。在帖子中,我们可以看到一个文字说“我真的很喜欢狗”,而另一个文字说“我真的很讨厌狗”,我们需要将此案例归类为完全不同的案例。

谢谢

0 投票
2 回答
1344 浏览

text - 文本挖掘从文本中提取动物类型

我需要做一个实验,我是 NLP 的新手。我读过解释理论问题的书籍,但在实践方面,我发现很难找到指南。所以请谁知道 NLP 中的任何事情,尤其是实际问题告诉我并指出正确的道路,因为我觉得我迷路了(有用的书籍、有用的工具和有用的网站)

我要做的是获取一个文本并在其中找到特定的单词,例如狗、猫等动物,然后我需要在每一侧提取这个单词和 2 个单词。例如

提取的文本将是

这将是我对机床的训练示例

Q1:将有大约 100 个与我上面解释的类似的训练示例。我使用 tocknizer 来提取单词,但我如何提取特定的单词(对于我们的示例,所有类型的动物),每边有 2 个单词。例如,我需要使用标签吗?或者你的想法是什么?

Q2:如果我有这些训练样例,我该如何准备合适的数据集给机床进行训练?我应该在这个数据集中写什么来指定动物,我应该提供其他特征吗?以及如何将其排列在数据集中。

你的很多话可能对我有很大帮助请不要犹豫告诉你所知道的

0 投票
3 回答
1469 浏览

text - sas 生成所有可能的拼写错误

有谁知道如何生成可能的拼写错误?

示例:失业 - uemployment - onemploymnet -- 等等。

0 投票
3 回答
23273 浏览

r - 将文档术语矩阵转换为包含大量数据的矩阵会导致溢出

让我们做一些文本挖掘

在这里,我支持一个文档术语矩阵(来自tm包)

当我做一个

我看到它是一个“列表”,结构看起来像

所以我尝试一个

这适用于 1000 个文档。

但是当我尝试使用 40000 时,它不再适用了。

我收到此错误:

向量中的错误...:向量不能是 NA 附加:在 nr * nc NAs 中由整数溢出创建

所以我查看了 as.matrix ,结果发现该函数以某种方式将其转换为带有 as.vector 的向量而不是矩阵。到向量的转换有效,但从向量到矩阵的转换无效。

你有什么建议可能是什么问题?

谢谢,船长

0 投票
2 回答
146 浏览

.net - .net 图挖掘

简而言之,我需要一些关于我正在尝试实施的解决方案的建议。我正在使用.net 技术实现一个社交网络,我需要从收集并保存在数据库中的数据中推断出知识(一种图/链接挖掘)。我的问题是:

  1. 这个任务应该由商业智能工具来执行吗?
  2. 你知道任何 .net 框架来处理这种类型的信息(图表)吗?
  3. 我应该如何持久化结果数据?使用单独的数据库?