问题标签 [knn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 如何结合不同的 NLP 特征进行机器学习?
我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。例如,我想使用词袋和本地 POS 标签。
另外,我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度(对于词袋向量),或者可能使用汉明距离作为 POS 标签。
但是,我不知道如何将两者结合起来。该地区的人通常如何做到这一点?有人可以帮我吗?
提前致谢。
r - 图 2.5 统计学习要素
我在计算图 2.5 的贝叶斯决策边界时遇到了一些困难。在 ElemStatLearn 包中,它已经计算了每个点的概率并使用轮廓来绘制边界。谁能告诉我如何计算概率?非常感谢你。
在传统的贝叶斯决策问题中,混合分布通常是正态分布,但是在这个例子中,它使用了两个步骤来生成样本,所以我在计算分布时有些困难。
非常感谢你。
r - 在 R 中使用具有分类值的 k-NN
我正在寻找对主要具有分类特征的数据进行分类。为此,欧几里得距离(或任何其他数值假设距离)不适合。
我正在寻找 [R] 的 kNN 实现,可以选择不同的距离方法,例如汉明距离。有没有一种方法可以使用具有不同距离度量函数的常见 kNN 实现,例如 {class} 中的实现?
我正在使用 R 2.15
python - 搜索 k 个最近点
我有很多看起来像这样的功能:
我想计算每个 id 欧几里得距离并对它们进行排序以找到最近的 5 个点。因为我的数据集非常大。最好的方法是什么。
c# - 边缘成本不对称时的最近邻,一些疑问
为了澄清我的帖子,我根据评论对其进行了编辑。
我在考虑如何在边缘成本不对称时有效地实现最近邻搜索。我正在考虑一系列城市,例如从 100 到 12000。
更详细地,作为示例,从城市A到城市B的旅行(例如步行)的成本为 COST 1,而从B到 A 的旅行(例如乘火车)的成本为COST 1 /10 。换句话说,我在这里看到的问题是,如果我有一个代表旅行城市之间成本的不对称矩阵C并且我选择一个点A,那么如何有效地发现三个最近的相邻城市B 1、B 2和B 3在旅行费用方面?我想重复运行查询。预处理时间,即使不是很长,也可以。
效率思考让我想到了类似kd 树的东西,当城市之间的成本是对称的时,它有助于在O(lg(n))时间内找到k个最近邻居。在我的情况下,这是一个只有基本 kd 树的障碍,因为在任何两个城市之间的两个方向上的旅行成本通常都不相同。事情的要旨似乎是,在不对称的情况下,我怎么能做类似 k 近邻的事情?
为了纠正上述对称性假设,我认为我不只是一棵树,而是构建了两棵树,以便在两个方向上计算成本,然后我对这两棵树进行搜索。然后我开始怀疑,有没有人知道是否已经有专门用于不对称成本的东西和/或使用两棵树作为一个想法完全误入歧途?
它也可能是二维的 kd 树不一定是最合适的解决方案。所以也欢迎指向其他数据结构和算法的指针。特别是如果有人对我的问题大小有实践经验。维基百科列出了很多方法,甚至可能近似的解决方案对我正在尝试做的事情有好处(这是一个用于学习目的的小型游戏)。
c++ - opencv最近邻
我在 opencv 中使用 CVKnearest Class 对具有 10 个特征的 6 个类进行分类,如下所示:
然后我使用:
但是结果总是 1,即使我给出了一个训练样本的特征,它应该给我一个零距离并被选为类!
当我这样打印 Mat 结果时:
它给了我一个浮点数,
所以我的问题是我做错了什么?或者我应该如何获得正确的班级标签?!
c++ - K-最近邻 C/C++ 实现
在哪里可以找到 k-最近邻算法的串行 C/C++ 实现?
你知道任何有这个的图书馆吗?
我找到了 openCV,但实现已经是并行的。
我想从串行实现开始,并使用 pthreads openMP 和 MPI 将其并行化。
谢谢,
亚历克斯
machine-learning - 使用 KNN 算法的监督项加权方法
是否可以将监督术语权重模型与 KNN 分类器一起使用?我想知道如何表示测试文档的向量,只要测试文档是未标记的并且监督术语权重模型需要标记文档来计算权重。有人可以帮忙吗?
matlab - 带有分类数据的 KNN 分类
我正忙于一个涉及 k-最近邻回归的项目。我混合了数值和分类字段。分类值是有序的(例如银行名称、帐户类型)。数字类型是,例如薪水和年龄。还有一些二进制类型(例如,男性、女性)。
如何将分类值纳入 KNN 分析?
据我所知,不能简单地将每个分类字段映射到数字键(例如银行 1 = 1;银行 2 = 2 等),因此我需要一种更好的方法来使用分类字段。我听说可以使用二进制数 - 这是一种可行的方法吗?建议将不胜感激。