问题标签 [phrases]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将 1 和 0 分组为两个短语,识别开始和结束,并计算持续时间
我正在做一些周期性分析。
我有变量 X,如果处于收缩状态则为真,否则为假
……
我把它变成了 0 和 1
然后我有一个日期序列。
……
然后我使用 'zoo' 以X2
td 顺序索引。
现在是我的问题。我想确定值更改的日期,并计算该系列保持为 1 和 0 的时间。
所以想要的结果:
有人会帮我吗?提前谢谢了。
jquery - 在 Jquery 中查找关键短语的简单方法?
我已经设置了一种从实时聊天客户端检索消息的方法。我想获取这些消息(大量文本)并找出这些消息中是否包含关键短语。如果它们包含关键短语,我将简单地将 1 添加到计数变量。
目前我正在这样做(“好”、“是”和“好”是关键短语)
这种方法有效,但不是很漂亮。我计划添加大约 100 个不同的关键短语,很容易看出这会变得很愚蠢。此外,添加新的关键短语既烦人又麻烦。
我想知道是否有更好的方法来制作某种关键字数据库,我可以从中搜索匹配项。最好是允许轻松添加和删除短语的一种。
谢谢。
python - 统计句子建议模型,如拼写检查
已经有可用的拼写检查模型可以帮助我们根据经过训练的正确拼写语料库找到建议的正确拼写。是否可以将粒度增加到字母表中的“单词”,以便我们可以得到均匀的短语建议,这样如果输入了不正确的短语,那么它应该从正确短语的语料库中建议最近的正确短语,当然它是从一个有效短语列表。
是否有任何 python 库已经实现了此功能,或者如何针对现有的大型黄金标准短语语料库进行此操作以获得统计相关的建议?
注意:这与拼写检查器不同,因为拼写检查器中的字母是有限的,而在短语校正器中,字母本身就是一个单词,因此理论上是无限的,但我们可以限制短语库中的单词数量。
c++ - 在 C++ 中存储和搜索短语的最佳数据结构
我使用 Trys 数据结构来存储单词。现在,我有一个要求,如果在同一段落中存在某些短语,则需要查找给定段落。
这样做最有效的方法是什么?短语总数不会超过 100 个。
r - R:使用 GraphNEL,提取关键词的词频
我正在运行以下代码以从原始数据文件中提取关键短语。虽然我成功地做到了,但我无法获得提取关键字的频率或数量,这将帮助我了解关键字出现的排名,因为我使用的是 GraphNEL。有什么办法可以得到关键短语的数量?TIA。
如果需要更多信息,请告诉我。
oracle - Endeca 6:带有特殊字符的短语不会触发短语
特殊字符是
由于其他需要,这些字符必须变得可搜索。
根据 Endeca 指南,因为它们是可搜索的,所以它们也可以用在短语中,例如“apple + orange”。
问题是这似乎不起作用,措辞没有发生,并且这些术语被视为正常搜索(虽然该短语已在参考应用程序中使用引号手动测试以确认结果的存在)。
尝试使用 11.2 版本只是为了检查它是否是一个较旧的错误,但它也没有工作。
谢谢
python - 如何将 doc2vec 与短语一起使用?
我想在 doc2vec 中有短语,我使用 gensim.phrases。在 doc2vec 中,我们需要标记文档来训练模型,而我无法标记短语。我怎么能这样做?
这是我的代码
python - Python:使用 Spacy 等将名词短语以外的其他词(例如介词)分块
自从有人告诉我 Spacy 是一个用于自然语音处理的强大 Python 模块后,我现在正在拼命寻找一种方法来将单词组合成多个名词短语,最重要的是介词短语。我怀疑是否有 Spacy 功能,但我猜这将是最简单的方法(SpacySpaCy 导入已经在我的项目中实现)。尽管如此,我对任何短语识别/分块的可能性持开放态度。
algorithm - 预测短语而不是下一个单词
对于我们构建的应用程序,我们使用一个简单的单词预测统计模型(如Google 自动完成)来指导搜索。
它使用从大量相关文本文档中收集的一系列 ngram。通过考虑前面的 N-1 个单词,它使用Katz back-off按概率降序建议 5 个最有可能的“下一个单词” 。
我们希望将其扩展到预测短语(多个单词)而不是单个单词。然而,当我们预测一个短语时,我们不希望显示它的前缀。
例如,考虑输入the cat
。
在这种情况下,我们希望做出类似的预测the cat in the hat
,但不是the cat in
& not the cat in the
。
假设:
我们无权访问过去的搜索统计信息
我们没有标记的文本数据(例如,我们不知道词性)
进行此类多词预测的典型方法是什么?我们已经尝试对较长的短语进行乘法和加法加权,但我们的权重是任意的,并且对我们的测试过度拟合。
data-visualization - 在 2D 中可视化 Gensim 的短语向量
我正在使用 Phrases 类并希望在 2D 空间中可视化向量。为了用 Word2Vec 做到这一点,我使用了 T-SNE,它运行良好。当我尝试对短语做同样的事情时,它没有任何意义(单词出现在不相关的单词旁边)。
关于如何可视化短语输出的任何建议?