问题标签 [phrase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Stanford Parser(CoreNLP) 查找短语头
我将使用 Stanford Corenlp 2013 来查找短语头。我看到了这个线程。
但是,我并不清楚答案,我无法添加任何评论来继续该线程。所以,我很抱歉重复。
我目前拥有的是句子的解析树(使用 Stanford Corenlp)(我也尝试过由 Stanford Corenlp 创建的 CONLL 格式)。而我需要的正是名词短语的头部。
我不知道如何使用依赖项和解析树来提取名词短语的头部。我所知道的是,如果我有nsubj (x, y)
, y 是主题的头部。如果我有dobj(x,y)
, y 是直接对象的头部。f I have iobj(x,y)
, y 是间接宾语的头部。
但是,我不确定这种方法是否是找到所有短语头的正确方法。如果是,我应该添加哪些规则来获取所有名词短语的头部?
也许,值得一提的是,我需要 Java 代码中的名词短语的头部。
solr - 关于 text_general 字段的短语查询搜索的 Solr 错误 500
查询错误:
LNm:"PersonLastName III"
响应是:“字段 \"LNm\" 没有位置数据被索引;无法运行 PhraseQuery'
架构是:
.net - .net 中的关键短语提取工具
我正在寻找可以在 .net 中使用的关键短语(通常是多个单词)提取工具/库。到目前为止,我搜索过的 KEA、MAUI 和其他工具都在 java 中。
python - 在 Python 3.3.2 中计算短语频率
我一直在研究网络上的不同来源并尝试了各种方法,但只能找到如何计算唯一单词而不是唯一短语的频率。我到目前为止的代码如下:
如果可能的话,我还想统计一下本文中使用“中央银行”和“高通胀”这两个词的次数。感谢您提供的任何建议或指导。
python - 计算 html 文件中的短语频率
我目前正在尝试习惯 Python,并且最近在我的编码中遇到了障碍。我无法运行可以计算短语出现在 html 文件中的次数的代码。我最近收到了一些帮助来构建用于计算文本文件中频率的代码,但我想知道有一种方法可以直接从 html 文件中执行此操作(绕过复制和粘贴替代方案)。任何建议将不胜感激。我之前使用的编码如下:
php - 从一行中提取内容
我正在尝试对我的访问日志文件进行表述,为此我只需逐行读取访问日志文件并从每一行中提取有用的信息,最后将它们添加到数据库中。
例如,一条线看起来像这样。
我只知道如何提取IP地址。(使用这个)
我要提取
这个请求值-
GET /p/V4ZkA5d074CTy_vbFa7nLw,1385070078,IneedThisInteger/12.txt HTTP/1.1
来自上述部分的这个整数值-
IneedThisInteger
这个状态部分-
200
这个字节部分-
3
有时请求 URL 更改它的最后一部分,
所以我真的需要一种稳定的方法来从每一行获取这些值。我该怎么做?
java - 如何在 Java 中使用模糊逻辑验证文本的章节标题
我需要一种解决方案来识别书中不正确的章节标题。
我们正在为书籍开发一个摄取系统,该系统可以进行各种验证,例如拼写检查和攻击性语言过滤。现在我们想标记那些在章节正文中看起来不准确的章节标题。例如,如果标题是“脾脏的功能”,我不会指望这一章是关于肝脏的。
我熟悉模糊字符串匹配算法,但这似乎更像是 NLP 或分类问题。如果我能匹配(或紧密匹配)“脾脏功能”这个短语,那就太好了——高自信。否则,文本中“功能”和“脾脏”的高出现也会产生信心。当然,他们离得越近越好。
这需要在内存中、动态中和在 Java 中完成。
我目前的幼稚方法是简单地标记所有单词,删除干扰词(如介词),停止剩下的内容,然后计算匹配的数量。至少我希望标题中的每个单词在文本中至少出现一次。
是否有不同的方法,理想情况下会考虑接近度和排序等因素?
php - 如何在短语中排序数字?(MySQL)
我有一张表格,其中列出了一些 iframe。问题是它们有不同的尺寸。现在我想按尺寸订购它们:
这是一个例子:<iframe width="576" height="432" src="iframeadress" frameborder="0" allowfullscreen></iframe>
现在我想选择其中一个数字并按它们的大小排序。我想到了一个 PHP 站点,我在其中插入宽度的数字作为变量。
但我不知道怎么做?
或者还有其他解决方案吗?:)
我只找到这个:Mysql order number / character combined but idk if its right command :/
solr - Solr Spellchecker Component (Suggester) 用于跨多个字段的短语(使用不同的标记器)
我正在尝试使用需要支持不同标记器的多个字段使用 solr 实现自动建议功能。我想要完成的场景如下:
有两个字段作者(KeywordTokenizer)和主题(StandardTokenizer)被复制到自动建议(用作spellcheck.field)
示例值:主题 - “Dell boost Widescreen UltraSharp 3007WFP”;作者——“德尔斯蒂勒”
搜索查询 : solr/select?q=de ; 预期结果:戴尔,戴尔斯蒂勒
结果根据分配的自动建议字段类型而有所不同。但是我需要将每个字段中的标记复制到“自动建议”而不是复制值,然后标记生成器在整理的字段值上创建新标记。
我正在使用 SOLR 4.5.1