问题标签 [mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
649 浏览

r - 使用单词组合标记或标记非结构化数据(文本数据)

我正在处理非结构化数据(文本)。我想用一些关键词和关键词组合标记数据。

我无法用单词组合标记数据。我想知道“欺诈”和“误卖”发生在哪里。

我尝试使用 qdap 包我能够用 OR 条件而不是 AND 条件标记这两个词

下面是我使用的代码

我正在使用保险公司的投诉数据 我拥有的变量是

  1. 投诉日期
  2. 品牌反对者抱怨
  3. 评论(投诉)
0 投票
1 回答
86 浏览

r - 关于文本挖掘中R的具体代码的问题并寻求一些建议

我最近正在尝试进行文本挖掘并查看代码,我了解了它试图对文本执行的操作。

但是问题出在代码的某些特定部分,我不知道为什么格式是这样的,以及参数是什么。那么你们对R语言的参考资料或书籍有一些建议,以便我可以检查这个函数的用途以及这个函数中参数的解释?

以下是做文本挖掘的几个问题,如果你们也能帮忙回答,不胜感激:)

1)

我的问题是:为什么在将 termDocumentMatrix 转换为矩阵时,我们在第三行需要两个“[]”

2)

这句话试图查看文件路径是否为 URL,我理解使用“grep”来检查文件路径是否有字符串“http”或“html”,但是为什么我们需要在 grep 之外的句子“length”?我很困惑。并且对于代码中的最后一项:

我也可以使用

达到同样的目的。那么generateSpeechDocCorpus和Corpus有什么区别呢?

0 投票
1 回答
841 浏览

facebook - 如何从 Facebook 粉丝页面获取所有帖子和状态?

在 IPython 中,我做

但它只返回一个月的帖子。

如果不是创建页面,我如何让帖子尽可能返回。

谢谢。

0 投票
1 回答
1392 浏览

r - 重命名术语文档矩阵中的术语

我刚刚在 R 中创建了一个术语文档矩阵,但现在我想重命名一些术语。

例如这里

检查 TDM 矩阵,它将输出

现在我想重命名例如“测试”。到“任何东西”。原因是当我挖掘我的文本时,有像“大数据”这样的词显然属于一起。所以在第一步中,我使用 gsub 将“big data”替换为“bigdata”。但是最后,我希望他们的输出是“大数据”。

提前谢谢帮助。

0 投票
0 回答
66 浏览

text - 文本挖掘算法相似文本

嗨,我正在使用 Facebook 编写一个小应用程序,通过社交网络对人们进行分组。我面临的主要问题是将相似的文本分组在一起。有些人有教育, Anna University, Guindy而另一些人则认为Anna University。我如何将这些组合在一起?我应该搜索什么算法或术语?

0 投票
4 回答
169 浏览

r - 非结构化文本数据到数据框

我正在尝试使用 R 将这些文本数据的几行转换为数据框。我无法有效地使用 read.delim。我希望将所有这些行填充到 10 个固定列中,由 : 谢谢。

0 投票
1 回答
2307 浏览

python - python-TypeError:字符串索引必须是整数。怎么修?

我正在使用 TF-IDF 查询 Google+ 数据并将数据保存为JSON文件。使用此文件时出现错误。

代码

错误信息

我使用 Python 2.7。

0 投票
1 回答
443 浏览

twitter - 社交网络数据集

我正在从事社交网络挖掘项目,我正在寻找一个“真正的社交网络数据集”(评论、评论、喜欢、友谊、兴趣、感觉、地点、喜欢的页面、已发布的照片​​、视频、帖子,标签任何东西都是积极的)

我搜索了很多,但所有可用的网络都只是节点和边(如 A 跟随 B)。例如

http://snap.stanford.edu/ 我在推特上搜索,但由于隐私条款,它没有打开 http://an.kaist.ac.kr/traces/WWW2010.html

有人对数据集有建议吗?

0 投票
1 回答
78 浏览

javascript - 挖掘数百万条记录的算法

我有超过一百万条数据的聊天记录,格式为

现在,我们需要检查与旅行相关的关键字,例如“旅行”或“住宿”或“酒店”等。假设我们已经收集了大约 15 个与旅行相关的关键字。

要求是使用关键字挖掘与旅行相关的聊天消息。如何?

我能想到的解决方案 - 拥有一系列与旅行相关的关键字。然后扫描每个关键字的所有消息(一些字符串匹配算法)。

我认为解决方案是相当蛮力的,关于更有效的搜索算法或设置聊天记录或/和关键字的更多想法?

0 投票
0 回答
24 浏览

search - 关联和序列挖掘

假设我有一串数字,连字符代表一个空格,定义

我有一组我感兴趣的已知数字,

这意味着我不在乎顺序,12 或 21。我只想知道,是否有一种算法可以找到所有子字符串及其起始位置,无论多长,仅包含 1 和 2(子字符串必须包含 1和 2 并且没有相邻的重复,即你永远不会看到 22 或 11 )

这意味着如果我用字符串 A 和组 G 运行算法,我会得到类似

如果算法返回一个字典,其中键作为子字符串,键值作为字符串中起始位置的列表。

另一个例子是

算法会产生