问题标签 [semantic-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1205 浏览

nlp - 从句子列表中提取关键字的方法/工具

我有一个很大的句子列表,并想用自己独特的关键字标记每个句子,以帮助我识别哪些句子是相似的以进行分组。

举个例子:

我一直在研究诸如 alchemy api 和 openCalais 之类的工具来提取关键字,但是,您似乎更多地使用这些工具从数据块中提取含义,例如整个文档或段落,而不是标记 1000 个独特但相似的个人句子。

简而言之,理想情况下,我想:

  1. 从文档或网页中提取一个句子(可能来自大型电子表格或推文列表)
  2. 在其上放置一个唯一标识符(某种类型的关键字)
  3. 通过 keywrd 将句子组合在一起
0 投票
1 回答
437 浏览

python - 如何判断两个网页内容是否相似?

给定 2 个 html 源,我想首先使用类似的东西从中提取主要内容。还有其他更好的库吗?我正在专门寻找 Python/Javascript 的库?

一旦我有两个提取的内容,我想返回一个介于 0 和 1 之间的分数,表示它们有多相似,例如来自 CNN 和 BBC 的关于同一主题的新闻文章将具有更高的相似度分数,因为它们是关于相同的主题或网页Amazon.com 和 Walmart.com 上的相同产品也会获得高分。我怎样才能做到这一点?是否有现有的图书馆已经这样做了?我可以使用哪些好的库?基本上我正在寻找自动摘要关键字提取命名实体识别情感分析的组合。

0 投票
1 回答
1851 浏览

c - C语言的语义分析

我最近一直在寻找C语言的语义分析器,但找不到。我找到了生成解析器的语言文件flexyacc C我已经设法修改它们并生成一个解析器。但现在我需要执行下一步。C如果有人能指出一些语义分析和构建树的示例,我将不胜感激。任何有关语义分析的信息都会有所帮助。我找到了一些小型C编译器,但它们使用自己的解析器,所以它们不适合我。

0 投票
0 回答
184 浏览

optimization - 结构字节填充

从给定的情况来看,我们可以说我们能够以不同的方式声明结构数组。正如我总结的那样,区别在于空间优化,即以下内容:

如代码顶部所示,这占用了 1600 个字节。虽然这个

仅占用 1400 字节。我的问题是,当我们在实际应用中使用这类东西时,它们之间是否存在语义差异?优化是好的,但是当我们将结构数组声明为不同的形式时,是否可以改变代码的主要思想?

0 投票
1 回答
5375 浏览

compiler-construction - 野牛中的语义类型检查分析

我一直试图到处寻找例子,但它是徒劳的。

我正在尝试编写一个基本的 Ruby 解释器。为此,我编写了一个 flex 词法文件,其中包含标记识别语句和一个语法文件。

我希望我的语法包含语义类型检查。

我的语法文件包含,例如:

这应该是整数和浮点数的有效规则。

根据我读过的内容,我可以为 arg 等非终端指定类型,如下所示:

其中“intval”在类型联合中,对应于 int C 类型。

但这仅适用于整数,我不确定如何使规则对浮点数有效。我想过有两种不同的规则,一种用于整数,另一种用于浮点数,例如:

但我确信有一种更好的方法可以做到这一点,因为这种暴行需要我有规则来允许浮点数和整数之间的加法。

我发现的所有示例都只有一种类型(通常是类似计算器的示例中的整数)。

如何指定诸如加法之类的规则可以将整数和浮点数作为参数?

非常感谢。

0 投票
1 回答
254 浏览

hadoop - 是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现

我一直在使用Mahout 提供的和Hadoop 作业执行潜在语义分析SparseVectorsFromSequenceFiles,这些作业运行 Map/Reduce 作业。我一直在尝试为这些在内存中运行的功能找到一个等效的实现,或者在单个线程中,或者最好在多个线程中。RowIdJobRowSimilarityJob

有这样的事吗?

0 投票
2 回答
1543 浏览

python - 如何使用词性评估语义文本相似度?

我正在尝试编写一个程序来评估文本之间的语义相似性。我已经比较了文本之间的 n-gram 频率(词汇量度)。我想要一些比这更浅的东西,并且我认为在句子构造中查看相似性将是评估文本相似性的一种方法。

但是,我能想出的办法就是计算 POS(例如,每个文本 4 个名词、2 个动词等)。这类似于仅计算 n-gram(实际上效果不如 ngram)。

很多人(Pearsons、ETS Research、IBM、学者等)使用词性来进行更深入的测量,但没有人说他们是如何做到的。词性如何用于“更深入”的语义文本相似度测量?

0 投票
1 回答
7009 浏览

python - 使用 WordNet 确定两个文本之间的语义相似度?

如何使用 WordNet 确定 python 中两个文本之间的语义相似性?

明显的预处理将是删除停用词和词干,但是然后呢?

我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离。这是 unigram 的标准。但这些是大型(400 字)文本,它们是自然语言文档,其中的单词没有任何特定的顺序或结构(除了英语语法规定的那些)。那么,您会比较文本之间的哪些词?你会如何在 python 中做到这一点?

0 投票
2 回答
1961 浏览

semantic-markup - 查找与名词输入相关的形容词

我想尝试根据用户在搜索框中输入的词来确定用户的个性特征。这是一个例子:

搜索词:“电脑”

检测到的性格/描述符:分析的、逻辑的、系统的、有条理的


我知道这项任务非常重要。我以前使用过 WordNet,但我不确定它是否包含每个名词节点的形容词云。词性标注本身就是一头野兽,所以我不确定建立自己的语料库并搜索与关键字共存的形容词词频是否是最好的主意,但我将在下面解释。

我目前正在使用维基百科转储,在删除停用词(and、or、of、to、a 等)后处理每篇文章的词频。我的想法是可能在整个语料库中搜索形容词(使用 WordNet 进行词性标注)和名词的共存(例如,形容词逻辑经常与名词计算机同时出现),并且基于相对的词干形容词频率,判断它是否与名词语义相关。潜在的应用是巨大的。


另一个想法是将名词词干,搜索以该词干开头的形容词,然后搜索该形容词的同义词。例子:

搜索词:“电脑”

词干:“计算-”

带词干的形容词:计算

同义词:???


问题是名词的形容词形式并不总是有形容词形式,一些名词词干会匹配到非常错误的形容词。*不好*例如:

搜索词:“running”(技术上是动名词,但仍然是名词)

词干:“跑——”

带词干的形容词:流鼻涕

同义词:不是我想要的词。想找到像“运动”、“有动力”、“有纪律”这样的词


这是以前做过的事情吗?你对我如何处理这个问题有什么建议吗?这几乎就像我正在为文档中的“重要”单词生成形容词云一样。

编辑:我意识到这个问题没有“正确”的答案。我将奖励赏金给提出具有最佳理论潜力的方法的人。

0 投票
1 回答
1626 浏览

compiler-construction - Clang 中的语义分析步骤是编译器的重要组成部分吗?

我试图了解 Clang 的来龙去脉,但我不太确定“Sema”库。语义分析是否在编译器编译程序的路径中?还是只是程序员用来分析他/她的代码?

据我所知,解析器构建了一个 AST,然后有“AST 消费者”使用 AST 做不同的事情。因此,代码生成库将 AST 转换为 IR。语义分析库使用 AST 来分析代码。这种理解是正确的,还是语义分析器也用于编译?