问题标签 [information-theory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
135 浏览

algorithm - 是什么让机器学习的任务变得困难或“复杂”?关于模式的复杂性,而不是计算

和许多人一样,我对机器学习很感兴趣。我上过关于这个主题的课程,并且一直在阅读一些论文。我有兴趣找出是什么让机器学习难以解决问题。理想情况下,我想了解如何量化或表达机器学习问题的复杂性。

显然,如果一个模式非常嘈杂,可以查看不同算法的更新技术,并观察到某些特定的机器学习算法由于嘈杂的标签而错误地将自身更新到错误的方向,但这是非常定性的争论,而不是一些分析/ 可量化的推理。

那么,如何量化问题或模式的复杂性来反映机器学习算法面临的困难呢?也许来自信息论的东西,我真的不知道。

0 投票
2 回答
252 浏览

binary - 消息的最小预期长度

一个袋子包含 16 个以下颜色的球:8 个红色、4 个蓝色、2 个绿色、1 个黑色和 1 个白色。Anisha 从袋子里随机挑选一个球,并使用一串 0 和 1 向 Babu 发送它的颜色信息。她把袋子里的球放回原处,重复这个实验很多次。每个实验她必须向巴布传达的信息的最小预期长度是多少?
(a)3/2 (b)log 5 (c)15/8 (d)31/16 (e)2

据我说,因为球是用替换取出的。任何时候,包里都有16个5种不同颜色的球。要编码 5 种颜色,应该需要 log5 的上限(以 2 为底),即 3 位,但给出的答案是 (15/8)。有人可以指出我的错误并为正确的解决方案提供一些提示吗?

0 投票
1 回答
1152 浏览

matlab - MATLAB: Entropy associated to the intensity-gradient joint histogram

One of the most widely used homogeneity measurements is the Shannon entropy: enter image description here

where p is the normalized histogram of an image of L grey levels.

We can measure such entropy by using not only image intensities but also image local gradients, since homogeneous images not only exhibit well ordered intensities but also well clustered very low gradient values in homogeneous regions ( J.V. Manjon et al, “A Nonparametric MRI Inhomogeneity Correction Method”, Medical Image Analysis, 2007).

Let Y be an image with M pixels and L1 grey levels, and let G be the associated image corresponding to the magnitude of the local gradient with L2 grey levels. The intensity gradient joint histogram is defined as: enter image description here

where δ is the Kronecker delta function. So the normalized intensity-gradient joint histogram: enter image description here

Therefore the entropy associated to the intensity-gradient joint histogram is: enter image description here

I need to calculate the above entropy for biomedical image data: http://i.stack.imgur.com/I4hf4.png. I found this discussion useful: Mutual information and joint entropy of two images - MATLAB, but I don't know if the joint histogram and the joint entropy calculated (by @rayryeng) in this discussion are the same as what I need, and if not, how I could calculate this entropy using Matlab? Any help is as always appreciated.

0 投票
1 回答
1899 浏览

weka - Weka 使用增益比和信息增益 (ID3 & C4.5(J48))

我正在使用 Weka,我需要分析具有信息增益和增益比的数据集,但是,我找不到从哪里设置这些。我知道id3使用信息增益,J48使用增益比,但是,我可以设置J48使用信息增益或id3使用增益比吗?

0 投票
0 回答
377 浏览

java - 从整数流估计熵

我在所有 32 位整数的空间中都有一个连续的整数流,并且在每次更新时,我都想知道我遇到的整数分布的确切或近似熵。它可以是整个生命周期的全局熵,也可以是随着时间的推移衰减旧信息的窗口近似值。

有谁知道已经这样做的库或具有此属性的算法?

显然,这是一种流式算法,因为每次迭代范围并计算每次更新的熵太昂贵了。有谁知道这样的算法或草图数据结构可以做到这一点?

动机和用例是我想检测整数流中的偏斜。它应该在整数范围内是均匀的,但在某些时候,由于其他条件,均匀性可能会受到干扰,我认为熵是检测这种情况的最佳方法。理想情况下,我会对计算组件的低熵发出警报。

谢谢你的帮助!

编辑:我实际上找到了一篇完全做到这一点的论文,但我知道没有现有的实现。重用经过测试、验证的代码比自己实现要好得多。:)

0 投票
1 回答
1542 浏览

r - 用 AIC 选型

我已经使用 R 中的 fitdistr 将正态分布拟合到我的索赔金额数据中。我如何拟合多元正态分布(二维正态分布)?我想使用 R 中的 AIC 选择最适合我的样本数据的那个。我该如何进行?我努力了

较小的 BIC 是更好的模型。但是如何根据这个 Mclust 结果计算 AIC。

0 投票
2 回答
139 浏览

c++ - 在缓冲区中打包一个包含 3 个值的数组

我有以下问题,我无法优雅地解决。

我有一个可以采用 3 个可能值(0、1、2)的数据类型。我有一个包含 20 个这种数据类型元素的数组。

由于我想在最少的内存上对信息进行编码,因此我执行了以下操作:

  • 考虑到每个元素最多可以取 4 个值(2 位)
  • 每个char都有 8 位,所以我可以放 4 次元素
  • 5char包含 40 位,所以我可以存储 20 个元素。

我已经做到了,它的工作时间。

但是,我有兴趣评估通过使用我的元素只能取 3 个值而不是 4 这个事实获得的空间。每个可能的组合都给我们 3 的 20 次方,即 3,486,784,401。然而 256 的 4 次方给我们 4,294,967,296 ,这是更大的。这意味着我可以在 4 上编码我的数据char

有没有一种通用的方法来做第二个想法?第一个想法很容易通过位掩码/位移位实现。但是,由于 3 个值不适合整数位数,我不知道如何将这些值中的任何一个编码/解码为 4 个字符的数组。

您对它的完成方式有任何想法或参考吗?我认为必须有一个通用的方法。如果有什么我对这个的可行性感兴趣的话

编辑:这可以简化为:如何将 0 到 2 的 5 个值仅存储到 1 个字节中(如 256 >= 3^5 = 243)

0 投票
2 回答
87 浏览

machine-learning - SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?

假设对于一个给定的机器学习问题,我们有一个人拥有哪辆车的特征。我们可以通过以下方式之一对这些信息进行编码:

  1. 为每辆车分配一个 ID。制作一列“CAR_POSSESSED”并将功能 ID 作为值。
  2. 为每辆汽车制作列,并根据该汽车是否为所考虑的样本所拥有,输入 0 或 1。列将类似于“BMW_POSSESSED”、“AUDI_POSSESSED”。

在我的实验中,当与 SVM 一起尝试时,第二种方法的性能比第一种方法好得多

编码方式如何影响模型学习,有没有研究过编码影响的资源?或者我们是否需要进行命中和试验来检查它在哪里表现最好?

0 投票
0 回答
180 浏览

r - 频率的负值,在 R 中的包熵中

使用 R 中的包“熵”,我有一个带有小数点和正负值的向量 y。

计算频率,我得到对应于向量正负值的正负值。为什么会这样?我应该怎么办?

我的目标是计算熵,因此负频率不适用于对数。有什么建议么?谢谢!

0 投票
1 回答
424 浏览

classification - 决策树中的特征重要性、离散化和标准

我正在使用数字特征,我想在 sklearn 中使用决策树分类器来查找特征重要性。

因此,如果我选择熵标准进行拆分,则信息增益用作拆分数据的杂质度量。我猜这相当于 Fayyad & Irani 二进制离散化。

最后,分类器返回一个称为“特征重要性”的属性。

特征重要性。越高,特征越重要。特征的重要性被计算为该特征带来的标准的(归一化)总减少。它也被称为基尼系数 [R195]。

我的问题是,即使我使用信息增益来找到最佳分割,“特征重要性”是否会返回用熵标准找到的分割中测量的基尼重要性值?