问题标签 [apache-spark-ml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

914 问题

0 投票

1 回答

547 浏览

apache-spark - 文本分类 - 如何处理

我会尽力描述我的想法。

MS SQL 数据库中存储了一个文本内容。内容每天都以流的形式出现。有些人每天都会浏览内容，如果内容符合某些标准，则将其标记为已验证。只有一类。它要么“有效”，要么无效。

我想要的是基于已经验证的内容创建一个模型，保存它并使用这个模型来“预验证”或标记新的传入内容。也偶尔根据新验证的内容更新模型。希望我清楚地解释了自己。

我正在考虑根据创建的模型使用 Spark 流进行数据分类。和朴素贝叶斯算法。但是您将如何创建、更新和存储模型？有大约 200K+ 不同长度的经过验证的结果（文本）。我需要这么多的模型吗？以及如何在 Spark Streaming 中使用这个模型。

提前致谢。

2015-12-17T22:09:05.143

0 投票

1 回答

788 浏览

apache-spark - Spark DataFrame 转换 - 删除少于 3 个字母的单词

我正在使用我RegexTokenizer的数据集进行模型构建。同时我想删除少于 3 个字母的单词。还有和。我怎样才能做到这一点？这是我的代码：` StopWordsRemovertokenizehttphttps

apache-spark apache-spark-mllib apache-spark-ml

2015-12-21T22:52:08.860

0 投票

0 回答

52 浏览

apache-spark - 我可以在 spark 中提取 fp-tree（任何格式）吗？

FPGrowth查找数据集在中的频繁项集Apache Spark。但是，我真的需要一个fp-tree来可视化我的数据集。

是否可以使用我的数据集获得fp-treewhich spark 构造？

apache-spark distributed-system apache-spark-mllib apache-spark-ml

2015-12-30T05:56:32.370

0 投票

1 回答

4822 浏览

apache-spark - 在 Apache Spark Python 中自定义 K-means 的距离公式

现在我使用 K-means 进行聚类并遵循本教程和 API。

但我想使用自定义公式来计算距离。那么如何使用 PySpark 在 k-means 中传递自定义距离函数？

apache-spark k-means apache-spark-mllib apache-spark-ml

2015-12-30T10:06:27.627

0 投票

1 回答

286 浏览

apache-spark - Apache Spark - 保存模型

我目前正在研究 apache spark，并且正在尝试从 Web 应用程序运行 java 代码。当我尝试将代码作为 java 应用程序运行时，它工作正常。但是当我尝试将它部署为 Web 应用程序时，当程序到达保存模型的阶段时，即model.save(sparkcontext,modelpath)我收到一个permgen java.lang.OutOfMemory exception. 但是当我尝试将模型编写为目标文件时，例如：

它工作正常。model.save()在 apache spark 中是如何实现的？

有没有其他方法可以保存模型？

提前致谢

apache-spark apache-spark-ml

2016-01-05T09:16:17.377

0 投票

2 回答

1236 浏览