问题标签 [phrase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5115 浏览

java - 使用 Stanford Parser(CoreNLP) 查找短语头

我将使用 Stanford Corenlp 2013 来查找短语头。我看到了这个线程

但是,我并不清楚答案,我无法添加任何评论来继续该线程。所以,我很抱歉重复。

我目前拥有的是句子的解析树(使用 Stanford Corenlp)(我也尝试过由 Stanford Corenlp 创建的 CONLL 格式)。而我需要的正是名词短语的头部。

我不知道如何使用依赖项和解析树来提取名词短语的头部。我所知道的是,如果我有nsubj (x, y), y 是主题的头部。如果我有dobj(x,y), y 是直接对象的头部。f I have iobj(x,y), y 是间接宾语的头部。

但是,我不确定这种方法是否是找到所有短语头的正确方法。如果是,我应该添加哪些规则来获取所有名词短语的头部?

也许,值得一提的是,我需要 Java 代码中的名词短语的头部。

0 投票
2 回答
3622 浏览

solr - 关于 text_general 字段的短语查询搜索的 Solr 错误 500

查询错误:

LNm:"PersonLastName III"

响应是:“字段 \"LNm\" 没有位置数据被索引;无法运行 PhraseQuery'

架构是:

0 投票
2 回答
221 浏览

.net - .net 中的关键短语提取工具

我正在寻找可以在 .net 中使用的关键短语(通常是多个单词)提取工具/库。到目前为止,我搜索过的 KEA、MAUI 和其他工具都在 java 中。

0 投票
3 回答
5052 浏览

python - 在 Python 3.3.2 中计算短语频率

我一直在研究网络上的不同来源并尝试了各种方法,但只能找到如何计算唯一单词而不是唯一短语的频率。我到目前为止的代码如下:

如果可能的话,我还想统计一下本文中使用“中央银行”和“高通胀”这两个词的次数。感谢您提供的任何建议或指导。

0 投票
2 回答
847 浏览

python - 计算 html 文件中的短语频率

我目前正在尝试习惯 Python,并且最近在我的编码中遇到了障碍。我无法运行可以计算短语出现在 html 文件中的次数的代码。我最近收到了一些帮助来构建用于计算文本文件中频率的代码,但我想知道有一种方法可以直接从 html 文件中执行此操作(绕过复制和粘贴替代方案)。任何建议将不胜感激。我之前使用的编码如下:

0 投票
2 回答
61 浏览

php - 从一行中提取内容

我正在尝试对我的访问日志文件进行表述,为此我只需逐行读取访问日志文件并从每一行中提取有用的信息,最后将它们添加到数据库中。

例如,一条线看起来像这样。

我只知道如何提取IP地址。(使用这个

我要提取

  1. 这个请求值- GET /p/V4ZkA5d074CTy_vbFa7nLw,1385070078,IneedThisInteger/12.txt HTTP/1.1

  2. 来自上述部分的这个整数值- IneedThisInteger

  3. 这个状态部分-200

  4. 这个字节部分-3

有时请求 URL 更改它的最后一部分

所以我真的需要一种稳定的方法来从每一行获取这些值。我该怎么做?

0 投票
1 回答
194 浏览

java - 如何在 Java 中使用模糊逻辑验证文本的章节标题

我需要一种解决方案来识别书中不正确的章节标题。

我们正在为书籍开发一个摄取系统,该系统可以进行各种验证,例如拼写检查和攻击性语言过滤。现在我们想标记那些在章节正文中看起来不准确的章节标题。例如,如果标题是“脾脏的功能”,我不会指望这一章是关于肝脏的。

我熟悉模糊字符串匹配算法,但这似乎更像是 NLP 或分类问题。如果我能匹配(或紧密匹配)“脾脏功能”这个短语,那就太好了——高自信。否则,文本中“功能”和“脾脏”的高出现也会产生信心。当然,他们离得越近越好。

这需要在内存中、动态中和在 Java 中完成。

我目前的幼稚方法是简单地标记所有单词,删除干扰词(如介词),停止剩下的内容,然后计算匹配的数量。至少我希望标题中的每个单词在文本中至少出现一次。

是否有不同的方法,理想情况下会考虑接近度和排序等因素?

0 投票
2 回答
56 浏览

php - 如何在短语中排序数字?(MySQL)

我有一张表格,其中列出了一些 iframe。问题是它们有不同的尺寸。现在我想按尺寸订购它们:

这是一个例子:<iframe width="576" height="432" src="iframeadress" frameborder="0" allowfullscreen></iframe>

现在我想选择其中一个数字并按它们的大小排序。我想到了一个 PHP 站点,我在其中插入宽度的数字作为变量。

但我不知道怎么做?

或者还有其他解决方案吗?:)

我只找到这个:Mysql order number / character combined but idk if its right command :/

0 投票
1 回答
574 浏览

solr - Solr Spellchecker Component (Suggester) 用于跨多个字段的短语(使用不同的标记器)

我正在尝试使用需要支持不同标记器的多个字段使用 solr 实现自动建议功能。我想要完成的场景如下:

有两个字段作者(KeywordTokenizer)和主题(StandardTokenizer)被复制到自动建议(用作spellcheck.field)

示例值:主题 - “Dell boost Widescreen UltraSharp 3007WFP”;作者——“德尔斯蒂勒”

搜索查询 : solr/select?q=de ; 预期结果:戴尔,戴尔斯蒂勒

结果根据分配的自动建议字段类型而有所不同。但是我需要将每个字段中的标记复制到“自动建议”而不是复制值,然后标记生成器在整理的字段值上创建新标记。

我正在使用 SOLR 4.5.1

0 投票
2 回答
710 浏览

parsing - 斯坦福解析器 - 标签计数

我一直在使用斯坦福解析器进行 CFG 分析。我可以将输出显示为树,但我真正想要的是标签计数。

所以我可以出去,例如(取自Stack Overflow 上的另一个查询):

但我真正想要的是 CSV 文件中输出的标签计数:

斯坦福解析器是否可以做到这一点,特别是当我想处理多个文本文件时,还是应该使用不同的程序?