问题标签 [vsm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3734 浏览

text - 用负值归一化向量

我想将我系统中的每个基于文本的项目表示为向量空间模型中的向量。项的值可以是负数或正数,反映了项在正类或负类中的频率。零值表示中性,例如:

项目 1 (-1,0,-5,4.5,2)

项目 2 (2,6,0,-4,0.5)

我的问题是:

1-如何将我的向量标准化为 [0 到 1] 的范围,其中:

.5 表示归一化前为零

和 .5> 如果是阳性

.5< 如果是负数

我想知道是否有一个数学公式可以做这样的事情。

2-归一化后相似性度量选择会有所不同吗?例如,我可以使用余弦相似度吗?

3-如果我在归一化后进行降维会很困难吗?

提前致谢

0 投票
1 回答
1216 浏览

opengl - OpenGL Variance Shadow Mapping 倒置衰减

我正在尝试使用 OpenGL API 实现方差阴影贴图技术。我一直在使用教程(Fabien Sanglard's Soft shadows with VSM)并遵循每一步,但我的阴影贴图看起来有点奇怪。我注意到的主要事情是,当我在光(透视)投影矩阵的剪裁平面附近改变时,它开始看起来很奇怪。

例如,这是它在 1.0f 上接近剪裁http://postimg.org/image/rupf6wqcx/的样子(这个结果被认为是好的)

这是 0.1f 值http://postimg.org/image/fox04z14z/

请注意,灯的位置保持不变。

我一直试图找出问题所在,连续 3 天没有结果。你能帮我解决这个问题吗?

这是阴影片段着色器的代码。

以及来自实际渲染通道片段着色器的阴影映射部分

顶点着色器非常简单,使用 MVP 矩阵从光线或相机的角度计算顶点,所以我认为我不需要发布它们。

此代码用于初始化和渲染:

它没有优化,但现在可以。

0 投票
0 回答
472 浏览

c - 向量空间模型查询 - 文档集搜索

我正在尝试用 c 编写用于 vsm 搜索的代码。因此,使用文档集合,我构建了一个哈希表(倒排索引),其中每个插槽都包含一个单词及其 df 和一个指向列表的指针,其中每个插槽都包含一个文档的名称(其中该单词至少出现一次) 以及 tf(它在这个文档中出现了多少次)。用户将写一个问题(也选择加权 qqq.ddd 和比较方法,但这对我的问题无关紧要),我必须打印与它相关的文档(从最相关到​​最不相关)。因此,我看到的示例显示了哪些步骤只有一个文档,例如:我们有 1.000.000 个文档的集合(N=1.000.000),我们想要比较

所以在示例中它创建了一个这样的数组:

该示例还为每个术语提供了 df,因此使用这些线索以及加权和比较方法很容易通过查找 4 个坐标(数组中每个单词为 1)将它们转换为向量来进行比较。因此,在此示例中,有 1.000.000 个文档,为了查看文档与查询的相关性,我们使用查询和文档中的单词的每个(4 个单词)1 次。所以我们必须找到4个坐标然后进行比较。在我正在尝试做的事情中,大约有 8000 个文档,每个文档都有 3 到 50 个单词。那么我该如何比较查询与每个文档的相关性呢?如果我有

为了比较查询文档1,我将使用这些词:这是 ping kong pong(所以 5 个坐标),为了比较查询文档2,我将使用这些词:我是 ping 舌头是 kong(6 个坐标),然后因为我使用相同的比较方法 得分最高的那个最相关?或者我是否必须同时使用这两个词:这是 ping kong am 舌 kong(7 个坐标)?所以我的问题是将所有这些 8000 个文档与问题进行比较的正确方法是什么?我希望我成功地使我的问题易于理解。感谢您的时间!

0 投票
1 回答
1717 浏览

c# - WPF、TabControl、TabItem 上的选择和悬停状态

我在 MVVM WPF 应用程序中有一个 TabControl。我根据这个 msdn主题为 TabItem 和 TabControl 创建了模板。我做了一些修改,并添加了更多 VisualStatManagers 状态以支持 tabItems 上的选择和悬停状态。

这是我的 ItemControl 模板

还有我的 TabControl 模板

我的问题是我的模板在我的项目中的奇怪行为。在 xaml 设计器中的 VS2012 中 TabControl 看起来很正常。但在编译的应用程序中则完全相反。选择状态无法正常工作。事实上,它只呈现正常的 vsm 状态。我可以在 TabItems 内容之间切换,但选项卡条上的选择和悬停 (mouseOver) 状态不会改变背景和边框颜色。正如我所说,只有 VisualStateManager 的正常状态在执行的应用程序中工作。由于我们无法调试 wpf vsm,我无法弄清楚导致该问题的原因。我认为这是 VisualSateManager 的问题。对于测试,我使用了带有简单标签控件的单个窗口,下面发布了

如果您知道我的应用程序出现问题的原因,或者您在 wpf 中遇到过类似的控件问题,请帮助我。

0 投票
0 回答
69 浏览

wpf - 从控件中删除 VisualStateManager 组

是否可以从 VisualStateManager 中删除组?

我有一个 ToggleButton 类型的 CustomControl 并且想要使用自定义状态组,并且需要从基类中删除一些默认组。

我在另一个组中创建了自己的选中状态,默认选中会导致一些问题和错误。

有人知道该怎么做吗?

0 投票
0 回答
59 浏览

c# - MVVM StateManger 似乎没有绑定到属性

我对 MVVM 和 WPF 还很陌生,最近开始从 WinForms 移植一个应用程序。我正在尝试从 ViewModel 更改视觉状态,但无法弄清楚。

我已经尝试了所有以前发布的解决方案,但似乎没有任何效果。这就是我所拥有的:

在 ViewModel 中:

当我输出 VisualStateName 的值时,它为空,如果我设置它,它不会改变视图的状态。我不知道我做错了什么,我发现了一些关于其他人错误的注释,但似乎没有犯过任何错误。谁能看到我做错了什么?

我正在使用这里找到的 StateManager:http: //tdanemar.wordpress.com/2009/11/15/using-the-visualstatemanager-with-the-model-view-viewmodel-pattern-in-wpf-or-silverlight/

0 投票
1 回答
404 浏览

nlp - 向量空间模型介绍

VSM(向量空间模型)有哪些不同类型?

我知道的一个(根据wiki)是tf-idf(余弦相似度用于此方法,但它不是单独的方法)。还有哪些其他方式?

另外,在 wiki 中讨论的文档中单词的不同维度(频率除外)是什么?

VSM 是否有任何层次结构?

PS如果我在任何地方错了,请纠正我...

0 投票
0 回答
708 浏览

java - Lucene BM25 评分

我试图使用 Lucene 来计算多个文档的相似性。使用 BM25 和 VSM 进行相似度计算。

除了 Lucene Im 使用 GATE,一个执行语言处理任务的开源框架。

当我试图计算 Documents (15) 之间的相似性时,我遇到了一个奇怪的行为。

使用 VSM,我的结果如下所示:

随着 BM25 我得到一些奇怪的行为。

BM25 因为“好”或高结果而链接一切。解释如下:

出于调试原因,我停用了术语提升和其他东西以查看真实结果。通常,如果它们高于 1 或低于 0,则所有值都归为 1 或 0。

我使用 Lucene 5.0.0。文件只是引用其他票证的普通票证。

相似之处实现为:

分数怎么可能相差这么大?正如我所见,VSM 所竞争的一切都更小。

有没有人遇到过这种奇怪的行为?

我很感激任何帮助!

- 编辑

我还想知道 BM25 的每个查询中的 queryNorm 等于 1.0。但在 VSM 中,每个查询都不同。

据此: Lucene 评分:在什么情况下使用 queryNorm?

queryNorm(q) 是一个标准化因子,用于使查询之间的分数具有可比性。这个因素不影响文档排名(因为所有排名的文档都乘以相同的因素),而只是试图使来自不同查询(甚至不同索引)的分数具有可比性。

它应该总是一样的吧?

0 投票
1 回答
1375 浏览

python-2.7 - 如何从 python 文档中找到特定单词的频率?

我想从文本文件中找出特定单词的频率。假设在我的文档中我有一行“这是我是”如果我输入“是”输出应该是 3 如果我的输入是“我”输出应该是 1。我正在尝试这段代码

但它没有提供所需的输出

0 投票
0 回答
150 浏览

sentiment-analysis - 方面提取和向量空间模型

我有一个评论数据集,例如:

是否可以使用任何向量空间模型(Word2Vec、Tf-idf 等)从这些数据中提取方面(特征)以及意见词?