“probabilistic-programming”的相关标签问题

0 投票

0 回答

318 浏览

probability - PyMC3 在多个离散父节点上调节随机变量

我最近开始使用 PyMC3 进行概率编程。在我的场景中，我有 3 个随机变量：On、Triangle 和 X，这样 X 取决于 Triangle 和 On。Triangle 和 On 都遵循 Bernoulli 分布，并且根据它们所取的值，遵循 Normal 的 X 的值会发生变化。

我写了一些模拟代码来测试这个概念，代码不好，主要是因为你不能调用numpy.isnan()PyMC3 发行版。我刚开始在这个框架中工作，我知道我不是在编写可以运行的代码，但是我在这里发布这个，以便你可以看到我做了什么。

我不确定如何指定 X 对 Triangle 和 On 的条件依赖。大家的任何想法都将不胜感激。

2019-03-30T14:07:32.250

0 投票

0 回答

146 浏览

bayesian - 添加新发行版时出现类型 FreeRV 的问题

我正在尝试通过包装 Agner Fogs c++ 版本（ https://www.agner.org/random/ ）向 PyMC3（Wallenius 非中心超几何）添加一个新的离散分布。

我已经成功地将相关函数放在了一个 c++ 扩展中，并添加了广播，使其表现得像 scipy 的发行版。（目前广播是在 Python 中完成的。.. 稍后将尝试 xtensor-python 绑定以在 c++ 中实现更高性能的矢量化。）

我遇到了以下问题：当我在模型上下文中实例化新分布的 RV 时，我得到一个“TypeError：需要一个整数（获取类型 FreeRV）”，其中“值”传递给新分布的 logp() 函数。

我知道 PyMC3 可能需要将 RV 连接到函数，但我找不到将它们转换为我的新函数可以使用的东西的方法。

任何有关如何解决此问题的提示或向 PyMC3 添加新发行版的一般信息或发行版的内部工作都会非常有帮助。

提前致谢！简

编辑：我注意到 FreeRV 继承自 theanos TensorVariable，所以我尝试调用 .eval()。这会导致另一个错误，即没有连接输入。（我现在没有确切的错误信息）。令我困惑的一件事是为什么在设置模型时在变量的实例化时调用 logp ...

bayesian pymc3 pymc probabilistic-programming

2019-06-09T07:42:18.357

0 投票

0 回答

70 浏览

text - 如何在太多文本中检测重复的“单词序列”？

问题是在大量文本片段中检测重复的单词序列。这是一个近似和效率问题，因为我要处理的数据非常庞大。我希望在索引文本时为文本分配编号，如果它们具有与已经索引的文本匹配的部分。

例如，如果我现在正在索引的 TextB 具有与数据库中的其他 2 个文本匹配的部分。我想给它分配一个数字，p1。如果该匹配部分更长，那么我希望它分配 p2 (p2>p1)。如果 TextB 的匹配部分只有 1 个其他文本，那么它应该给出 p3 (p3 < p1)。这两个参数（序列的长度，匹配组的大小）将具有最大值，这意味着在超过这些最大值之后，分配的数量将停止增加。

我可以想办法以蛮力做到这一点，但我需要效率。我的老板指示我在那里学习 NLP 和搜索解决方案，我正计划通过这个斯坦福视频讲座。

但我怀疑这是否是正确的方法，所以我想问问你的意见。

示例：文本 1：“我想成为一名艺术家并环游世界。” 文本 2：“我想成为一名音乐家。” 文本3：“环游世界。” 文本 4：“她想环游世界。”

有了这些文本，我想要一个数据看起来像这样：-“我想成为”，2 个实例，[1,2] -“环游世界”，3 个实例，[1,3,4]

在有了这些数据之后，最后，我想做这个过程（在有了之前的数据之后，这可能是微不足道的）：（一个名为 A 的矩阵在必要的索引处有一些值。我会在一些试验后确定这些。）匹配组有数字值，它们从矩阵 A 中检索。组 1 = A(4,2) % 4 个单词，2 个实例组 2 = A(3,3) % 3 个单词，3 个实例

然后我将为每个文本分配一个数字，这是它们所在组的数字之和。

我的问题是以有效的方式形成这个数据集。

text nlp approximation probabilistic-programming

2019-06-12T10:32:49.237

0 投票

2 回答

72 浏览