问题标签 [information-theory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2859 浏览

database-design - 信息模型和本体有什么区别?

信息模型本体有什么区别?

它们在我看来是一样的。

谢谢!

0 投票
1 回答
58 浏览

algorithm - 高效三“船”,一条消息算法

前提是人 1 想通过大洋向人 2 发送秘密消息 M(没有密钥共享)。她决定通过 3 艘船发送部分消息,这样如果任何两艘船的版本被传递,人 2 就可以构建完整的消息原始信息。目标是使每个部分消息(M1,M2,M3)本身无法破译。在所有 3 条消息都到达的情况下,冗余消息可以用作 ECC/奇偶校验。

假设消息由一系列 8 位字符 (m1,m2,m3...,mM) 组成。在最有效的编码中,len(M1+M2+M3) 将是 1.5X len(M)。

一个低效的编码是:M1 每个字符由上半字节 (UN) 加上下半字节 (LN) 组成,M2 由 UN 减去 LN 组成,M3 就是简单的 LN。M1 和 M2 每个字符使用 5 位,M3 每个字符使用 4 位。

注意:分配可以旋转使得 M1 得到 UN+LN,UN-LN,LN,... M2 得到移位 UN-LN,LN,UN+LN,.. M3 得到双重移位 LN,UN+LN, UN-LN 为了:

1) 使消息长度相同(每 3 个字符) 2) 添加进一步的混淆

这种模式有效但效率不高。任何建议的改进或替代方法?

0 投票
1 回答
52 浏览

information-theory - 关于信息和熵定义的性质

如果内在信息和熵(“消息”),我正在查看香农的定义。老实说,我无法直观地理解为什么香农用对数来定义这两个(除了对数的可取的“将乘法拆分为和”属性,这确实是可取的)。

任何人都可以帮我解释一下吗?

谢谢。

0 投票
0 回答
561 浏览

java - java中用于社区检测的归一化互信息植入图范围不在0到1之间

我编写了一个程序来计算标准化互信息以评估社区检测。但我得到的 nmi 值高于 1。通常它应该在 0 和 1 之间。我在http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html中实现公式

我的代码有什么问题?

这是我的代码:

0 投票
1 回答
233 浏览

python - 如何使用 python pos tagger 检测 aboutness

我正在与 python 合作以获取 facebook 状态,告诉状态是关于什么以及情绪。本质上我需要告诉情绪指的是什么,我已经成功地编写了一个情绪分析器,所以麻烦的是让一个 POS 标记器来计算情绪指的是什么。

如果您有任何经验建议,我将不胜感激。我已经阅读了一些关于从主客体、NP-PP 和 NP-NP 关系计算关于度的论文,但没有看到任何好的例子,也没有找到很多论文。

最后,如果您使用过 POS 标记器,那么作为非计算机科学家,我在 python 中的最佳选择是什么。我是一名物理学家,所以我可以一起编写代码,但如果存在一个包含我需要的一切的包,我不想重新发明轮子。

非常感谢您!

0 投票
2 回答
1995 浏览

php - 以位为单位保护随机十六进制大小以防止暴力破解

我正在获取十六进制数字以生成唯一的随机激活器链接,例如:

实际上,通过搜索,我使用 PHP 的随机十六进制可能是:

bin2hex( openssl_random_pseudo_bytes(16) )

上面生成了一个包含 32 个十六进制数字的字符串,我希望使用较短的长度作为 12 个十六进制数字。

考虑到计算机的功率处理,我可以使用的十六进制的最小尺寸是多少?

0 投票
2 回答
94 浏览

algorithm - 对不同函数的“感知随机性”进行评分的算法

我有一些函数将英文字母的小写字母作为输入并返回 True 或 False。

有 2^26 个这样的可能函数。以下是一些函数及其 26 位表示:

00000000000000000000000000000011(仅Z)010101010101010101010101011(甚至是字母)10000000000000000000000000000000000 000(仅)10001000100000100000100000(仅元音)

我想做的是对这些函数的感知随机性进行评分,即它们对人类来说有多随意?似乎有一个模式,或者我只是随机挑选了一些字母?

我认为分数可能基于量化向其他人描述模式所需的最少信息,或者压缩时模式字符串的大小。

有没有适合这个的算法?它是否可以包含人类可能预先知道的额外信息,例如“aeiou”属于“元音”类,“gjpqy”属于“low-hanging”类,“bdfhijklt”属于“tall”类?

0 投票
1 回答
683 浏览

compression - 两个符号的最小描述长度和霍夫曼编码?

我对两个符号的字母表的最小描述长度的解释感到困惑。

更具体地说,假设我们要编码一个二进制字符串,其中 1 的出现概率为 0.80;例如,这是一个长度为 40 的字符串,有 32 个 1 和 8 个 0:

1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 0 0 1

按照标准的 MDL 分析,我们可以使用前缀代码(如 Huffman 的)来编码这个字符串,编码这个字符串的代码将是 (-log(0.8) * 32 - log(0.2) * 8),它低于复制字符串没有任何编码。

直观地说,编码这个字符串比 1 和 0 以相等概率出现的某个字符串“便宜”。但是,在实践中,我不明白为什么会这样。至少,我们需要一位来区分 1 和 0。我看不出前缀代码如何比只编写不编码的二进制字符串做得更好。

有人可以帮我澄清一下吗?

0 投票
1 回答
2319 浏览

information-theory - 考虑到当今的技术几乎每天都在增强,您如何让自己了解最新的技术趋势?

这是 IT 工作面试中被问到最多的问题,所以我想知道我应该如何解释向我提出的这类问题的答案。

0 投票
2 回答
21008 浏览

python - 计算每个 numpy 数组行的熵的最快方法?

我有一个大小为 MxN 的数组,我喜欢计算每一行的熵值。最快的方法是什么?