问题标签 [lexicon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 应用 NLP:如何根据多词词汇对文档进行评分?
这可能是一个相当基本的 NLP 问题,但我手头有以下任务:我有一组文本文档,我需要根据可能是 1-、2-、3- 等的(英语)术语词典对这些文档进行评分N
-字长。N
受一些“合理”数字的限制,但字典中各种术语的各种值的分布n = 1, ..., N
可能相当均匀。例如,该词典可以包含特定类型的设备列表,我想查看给定文档是否可能与这些设备中的任何一个有关。因此,如果文档中的任何词典条目出现一次或多次,我想给它打高分。
在考虑词典中可能出现的各种形式的单词的同时进行评分的标准 NLP 技术是什么?输入文档和词典都需要什么样的预处理才能执行评分?有哪些用于预处理和评分的开源工具?
mysql - Wordnet query to return example sentences
I have a use case where I have a word and I need to know the following things:
- Synonyms for the word (just the synonyms are sufficient)
- All senses of the word, where each sense contains - the synonyms matching that word in that sense, example sentences in that sense (if there), the part of speech for that sense.
Example - this query link. Screenshot for the word carry
:
For each 'sense', we have the part of speech (like V
), synonyms matching that sense, (like transport
in the first sense, pack
, take
in the second sense, etc), example sentences containing that word in that sense (This train is carrying nuclear waste
, carry the suitcase to the car
, etc in first sense, I always carry money
etc in the second sense, etc.).
How do I do this from a Wordnet MySQL database? I ran this query, it returns the list of meanings for the word:
SELECT a.lemma, c.definition FROM words a INNER JOIN senses b ON a.wordid = b.wordid INNER JOIN synsets c ON b.synsetid = c.synsetid WHERE a.lemma = 'carry';
How do I get the synonyms, example sentences, part of speech and synonyms specific to that sense for each sense? I queried the vframesentences
and vframesentencemaps
tables, saw example sentences with placeholders like %s
, and based on the wordid
column I tried to match them with the words
table, but got awfully wrong results.
Edit:
For the word carry
, if I run these queries, I get synonyms and sense meanings correctly:
So all I now need is a way of finding the example sentence for the word carry
in each of the 41 senses. How do I do it?
analytics - 小文本的文本分析和聚类
我有一个编程技能数据集,我喜欢对其进行预处理/清理并创建一些更通用的组。
- 为了干净,我可以对以下文本进行什么文本清理。以下数据集中的示例。Visual C 和 C 相同或 Yi 和 Yi 框架相同。
- 是否有任何类型的程序员/软件工程和项目管理或本体词典可以帮助我将以下分类为更抽象的类别
这是我的数据集
r - 如何将情感词典导入 R 以进行 Kickstarter 的数据抓取
我正在尝试使用 R 创建一个模型来测量文本中的情感。基本上,使用带有情感词的词典,我只想从大量 URL 中提取“p”(段落)。我正在寻找每个 URL 的每个情感的字数,基于使用词典的预定义情感指示词的存在。词典链接
我使用的数据是 JSON 格式,来自 Webrobots:Dataset Link(最新集)。
任何帮助将不胜感激,因为我真的很想开始做这件事!即使只是知道如何将其导入 R 和计算单词的代码也会有很大帮助。
亲切的问候,一个绝望的R文盲女孩。
更新:数据文件被导入到 R 中。但是,我找不到编写代码来测试是否存在词典指示的单词以针对数据运行的方法。我试图创建 6 个新变量,其中包含六种基本情绪(快乐、悲伤、愤怒、惊讶、恐惧、厌恶)的每个活动的计数,以显示这些情绪存在的字数
我已经在仔细查看文件中指出了段落“p”部分。我只需要对其内容进行分类。
r - 使用 R 进行情绪分析(代码无法正常工作)
我正在尝试使用基于词典的评分方法对文本进行一些情感分析。在阅读了堆栈溢出帖子后,我直接从http://analyzecore.com/2014/04/28/twitter-sentiment-analysis/借用了我的代码: R 情绪分析与字典中的短语
以下是关于我的数据集的一些总结:
和我正在使用的代码:
我正在使用 Bing Liu 的意见词典,并将它们加载为:
这是我用来通过评分函数运行数据和字典的代码:
但是,无论我做什么,我的 30 根琴弦都只能得到 0 分。(输出总结见下表):
我不知道在哪里修复(在此处发布此问题之前,我确实在自己的代码中发现了许多错误)。任何帮助深表感谢!
indexing - MarkLogic 中的词典是如何工作的?
与Marklogic有何lexicons
不同。indexes
请举例说明。
parsing - 构建一个有很多标记的词法分析器
我已经找了两个小时了,我真的不知道该怎么办。
我正在尝试构建一个分析器,它使用可以匹配几千个单词的词法分析器。这些是自然语言单词,这就是为什么它们如此之多。
我首先以一种简单的方式尝试了一个令牌只有 1000 个不同的匹配项:
javac编译后返回代码太大。
那么,如何在我的 lexer 中管理数千个令牌?
我已经读过,对每个单词使用 n 个标记比对 n 个单词使用一个标记更有效。但在这种情况下,我将有 1000 多个令牌的规则,这看起来不是一个更好的主意;
我可以修改令牌管理器,或者构建一个,所以它只匹配列表中的单词;
在这里我知道词法分析器是一个有限状态机,这就是为什么它不可能,所以无论如何要使用其他词法分析器?;
我可以自动生成一个匹配每个单词的巨大正则表达式,但这不会让我之后独立处理这些单词,而且我不确定编写一个 60 行正则表达式是否是个好主意;
也许有办法从文件中加载令牌,这个解决方案非常接近解决方案 2 和 3;
也许我应该使用另一种语言?我正在尝试从 XLE(可以处理超过 70 000 个令牌的词典)迁移到 java,这里有趣的是生成 java 文件!
所以在这里,我可以找到使用 javacc 词法分析器处理数千个标记的方法。如果有人习惯并有想法,那就太好了?
最好的
科伦廷
rascal - 将文本文件附加到 Rascal 中的词典
是否可以将从文本文件中检索到的终端附加到 Rascal 中的词典中?这会在运行时发生,我看不出有明显的方法来实现这一点。我宁愿将数据与 Rascal 项目分开。例如,如果我从文本文件中读取了国家列表,我将如何将这些添加到词典中(使用lexical
关键字)?
marklogic - Marklogic 值词典和单词词典
根据文档:通过配置范围索引创建值词典。可以为整个数据库或特定元素或属性创建单词词典。
这是否意味着创建单词词典不需要范围索引?范围索引在创建唯一的单词/值列表中起什么作用?
search - Marklogic 词典:理解 cts:element-values
我正在尝试了解
我的印象是上面的函数从指定的元素值词典返回值,从 $start 开始。查询时:
我期待结果仅以“他”开头,但我也得到了以下结果:
(当我向下滚动时)我感觉很好
我到处走走
我想知道 $start 到底指定了什么?