问题标签 [mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
48 浏览

bash - 如何仅通过命令行在 OSX 中启动 shell 脚本?

所以我.sh在 OSX 中有一个非常简短的脚本,旨在在启动时启动系统挖掘(而不是登录!)。

我知道这可以通过将其作为试用版执行,但我无法弄清楚如何在 OSX 机器(我有 root 访问权限)上让它在系统启动时运行。我知道launchd是一回事,但它是一个GUI(据我所知),我需要通过另一个shell脚本在命令行上执行该方法,该脚本将安装依赖项,将所有内容移动到位,并将其.sh放入它需要在文件夹中才能在启动时启动。感谢您的帮助,谢谢!

0 投票
0 回答
73 浏览

python - TypeError:将 xml 格式的维基百科处理为文本格式

我正在学习 Python,主要用于文本挖掘,遵循 ( http://textminingonline.com/training-word2vec-model-on-english-wikipedia-by-gensim ) 的指导。我想从 api 返回的 xml 中提取维基百科英文文本。但是,会出现错误:

任何人都可以就如何解决这个问题提供任何提示吗?我需要用文件的地址替换outpand吗?inp

提前致谢。我附上了代码:

0 投票
0 回答
123 浏览

r - 来自 CSV 的 R 文本挖掘关联

我正在使用 R 进行文本挖掘,我有一个问题。我正在导入一个包含 4 列的 CSV 文件。其中两列有字符串,一个是用户输入,另一个是官方回复,两者都像句子。每行是一个特定的案例/实例,其中有超过 4000 个。我正在尝试关联用户输入中的某些关键词,以使用关联来预测响应。例如,用户输入“跳转”通常与此响应相关。关于如何设置的任何帮助?谢谢!

0 投票
1 回答
84 浏览

matlab - 如何根据 Matlab 中的行名计算表中的值

在 Matlab 中,我有 2 个表,1 个表包含所有其他表的值。第一个表名为 T1

表 2 是

如何将 T2 中的值用于 T1 并像这样打印:

0 投票
0 回答
152 浏览

python - 用于模式数据查找的机器学习/数据挖掘

A 在我的音频网络中有一些问题(我使用 IP 音频) - 有时我的音频流中会出现短暂的间隙。我有一个记录所有流的记录器。我用 python 和 ffmpeg 编写了小脚本(并借用了一些 JavaScript 进行可视化:))来查找 logger mp3 文件中的空白。总比没有好,但我有很多错误检测 - 手动检查所有结果非常烦人 - 脚本每小时发现 20 到 200 个间隙,通常只有 1-10 个由某些故障引起的间隙 - 所有其他都是短期的歌曲、语音等中的低音频级别。我正在寻找高级机器学习/数据挖掘机制来自动检查差距,只留下我想要的。我可以提供很多“真”间隙(带数据的数组)和“假” 教机器的间隙,然后只想给它提供带有间隙的数据标记,以比较它是否看起来像“真实”间隙。对于最快的解决方案,您有什么建议?请注意,Python 是我唯一能写一点的东西。:/ 此时,gap search 的代码如下。它在 mp3 文件或包含文件的文件夹中查找持续时间大于 gap_min ms 且小于 gap_max ms 的间隙。

结果是带有波形的 HTML 文件。结果仅在 Firefox 浏览器中正常工作。虚假差距: 虚假差距 1 的示例 真实差距: 真实差距 1 的示例

更新。因为算法对音量级别非常敏感,所以我在分析数据之前添加了音量归一化。它不适用于输出文件 - 它只是在分析数据之前对其进行标准化。

0 投票
1 回答
280 浏览

r - 如何使用 R 中的 K 均值聚类生成带有文本挖掘结果的文件

我有一组数据,其中有一个文本字段,我试图根据文本字段自动将其标记为相关或不相关。我已经手动标记了数据,但正在尝试将自动标签与手动标签进行比较以计算自动标签的准确性。我正在使用 K 均值聚类将数据聚类到 2 个聚类中。我苦苦挣扎的地方是用我的原始数据和它们所在的集群创建一个 csv 文件。我的想法是我将有一个 csv 文件显示哪一行在哪个集群中,这样我就可以查看每个集群的大多数标签拥有该标签并将其分配给该集群中的每一行。然后我可以用它来做进一步的分析。

这是我拥有的数据的一个示例(非常简化)。相关性是我的手动标签。

这是我用于创建集群的代码:

那么如何创建一个 csv 文件来显示我的原始数据以及显示每行所在的集群的附加列?

我正在寻找的输出看起来像这样的结果:

0 投票
1 回答
557 浏览

algorithm - 哪种算法可用于检测时间模式?

我正在尝试检测数据中的时间关系或时间模式。我在 Weka 中使用过 Apriori 关联器,但似乎忽略了时间,只找到了序列。

你能推荐一个用于时间模式挖掘的工具包或包吗?

0 投票
0 回答
85 浏览

r - R tm 包 - 删除整个段落

我正在尝试删除在不同文档中不断重复的整个段落。它是在电子邮件末尾的免责声明,例如:“对此电子邮件的任何评论、转发传播或其他用途......”

它不工作。我无法删除单个单词,因为其中一些可能很有价值……有什么建议吗?

0 投票
0 回答
72 浏览

python - Twitter挖矿问题与速率限制

我一直在从事一个研究项目,涉及从 twitter 获取朋友和关注者信息。我编写的代码适用于像我这样拥有 1k 关注者或朋友的示例帐户。但我在为拥有 1220 万粉丝的唐纳德特朗普账户运行它时遇到了麻烦。在我的程序中查询超出了某个时间速率限制后,我等待 15 分钟,然后再次请求相同的。此过程适用于大约 100 万用户信息,但之后会卡住,或者有时会出现 URL 错误。请提出在处理如此大的数据时可能出现的问题以及解决方案。请在下面找到相同的代码片段 -

0 投票
0 回答
29 浏览

python - twitter挖矿内存错误

我正在处理大量数据的 twitter 挖掘。我在下面的代码中遇到内存错误 -

其中 ids dict 有大约 1250 万个条目。你能建议这里的问题吗?