问题标签 [approximate]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
71 浏览

python - 从损坏的文件中搜索文本的算法

我必须从已损坏的文本文件中搜索某些标签,因为文件已损坏,数据已更改(某些字符已删除,有些已被修改)。例如,我必须搜索标签->“页数”

文本文件 1:

BHASKAR RAO MUKKU (57)Abstract 在这个系统中,有 2 个带踏板的踏板杆、一侧球轴、空心辅助轴、副轴、两个在圆形节距上有两个离合器销孔的花键齿轮、两个带棘轮的花键齿轮圆节距的齿轮、链轮、四个离合器销和一个肝脏,用于将普通自行车改装成齿轮自行车。页数:10

文本文件 2:

BHASKAR RAO MUKKU (57)Abstract 在这个系统中,有 2 个带踏板的踏板杆、一侧球轴、空心辅助轴、副轴、两个在圆形节距上有两个离合器销孔的花键齿轮、两个带棘轮的花键齿轮圆节距的齿轮、链轮、四个离合器销和一个肝脏,用于将普通自行车改装成齿轮自行车。页数:10

文本文件 3:

BHASKAR RAO MUKKU (57)Abstract 在这个系统中,有 2 个带踏板的踏板杆、一侧球轴、空心辅助轴、副轴、两个在圆形节距上有两个离合器销孔的花键齿轮、两个带棘轮的花键齿轮圆节距的齿轮、链轮、四个离合器销和一个肝脏,用于将普通自行车改装成齿轮自行车。页数:10

以上是一些文本文件的示例。如您所见,在上述所有文件中,NUMBER一词已被修改为三种不同的形式,现在对于所有这 3 个文件,我的代码必须输出相应的粗体字。

到目前为止,我尝试的是从文本文件中找到标签和连续字符串之间的最长公共子序列(长度几乎等于标签的长度),然后计算匹配字符的百分比,如果该百分比> 85,我的代码输出连续的字符串。

我的代码

但是对于许多情况,例如文本文件 1,此代码会失败。是否有任何其他方法可以更准确有效地进行搜索。

0 投票
2 回答
161 浏览

php - php strpos和近似匹配,相差1个字符

我搜索了系统,但找不到任何我能理解的帮助,所以这里......

我需要在 php.ini 中找到一个字符串的近似匹配。

本质上,我正在检查所有 $names 是否都在 $cv 字符串中,如果没有,它会将标志设置为 true。

它工作正常。但是,我有一个$cv = "marie_claire"和一个$name = "clare" 的情况,它们设置了标志(当然),但我希望 strpos 能够“找到”它。

是否可以进行近似匹配,以便如果字符串中的任何位置有 1 个额外的字母,它会匹配?例如这样:

$name = "clare" 在 $cv = "marie_claire" 中找到

$name = "caire" 在 $cv = "marie_claire" 中找到

$name = "laire" 在 $cv = "marie_claire" 中找到

等等...

0 投票
1 回答
1263 浏览

string - 名称的近似字符串匹配算法

我正在为以下示例寻找模糊字符串算法:给定一个现有名称的数据库,如果匹配准确度高于输入阈值(例如 90%),则将输入匹配到最匹配的名称,否则为 NA

输入

目前,像 Levenstein 这样的大多数算法和像 Soundex 这样的基于语音的算法都无法匹配像 BondJames 这样的倒置名称。到目前为止 cosine 和 Jacquard 产生了最好的结果,但我正在寻找更多,以便我可以选择最好的或可能组合算法。

0 投票
1 回答
47 浏览

python - 用兴趣点近似列表

我希望这个列表近似为 6 个值,因为您会看到这些值以一些方差分布。我在 matplotlib 中绘制,我明白。现在我有 6 个具有多个值的兴趣点,我如何才能将其近似为 6 个值

0 投票
2 回答
974 浏览

presto - Presto 对 approx_distinct 的支持

我正在评估分布式查询引擎,用于对大规模数据(~100GB)进行分析查询(交互式查询和批处理查询)。要求之一是计数不同的查询的低延迟(<= 1s),其中近似结果(最多 5% 的错误)是可以接受的。

Presto 似乎通过它的 approx_distinct() 来支持这一点。据我了解,它为此使用了 HyperLogLog。但是,除非数据以汇总形式与 HyperLogLog 值一起保存,否则必须动态计算。对于大型数据集,我认为我的查询不会在一秒钟内完成。

它是否支持在摄取时使用 HyperLogLog 计算汇总(类似于 Druid)?鉴于与 Druid 不同,Presto 从外部存储(Hive/Cassandra/RDBMS 等)查询数据,我不确定是否支持摄取时间汇总,除非 Presto 的本机存储支持它们。有人可以确认吗?

0 投票
0 回答
145 浏览

object - 什么是近似中值滤波器?

什么是近似中值滤波器,它与图像处理中的中值滤波器有何不同?

我的教授要求我报告近似中值滤波器并展示 java 中的示例程序。我不知道什么是近似中值滤波器。

0 投票
2 回答
162 浏览

java - java近似e使用系列

我需要使用系列来近似 e:e= 1+ 1/1!+1/2!+..+1/n!其中 n=100000 这是我所做的,但它拒绝编译..

0 投票
1 回答
829 浏览

string - 使用标准 unix 工具进行模糊搜索/近似字符串匹配

我正在使用 prokka 注释文件,这些文件给了我在 uniprot 数据库中发现的基因的蛋白质产物。不幸的是,许多基因与多个非常相似的产品名称相关联,例如

而这些变体实际上是不同的产品

为了避免在将我的基因映射到它们各自的产品时遇到麻烦,我决定用“@”替换所有可能的歧义和有问题的字符,例如“-”“”“/”,并将所有字符串小写。

但是有没有办法搜索例如

包括与标准 unix 工具(如 grep)密切相关的条目?到目前为止我找不到答案。

0 投票
0 回答
41 浏览

regex - 限制错误百分比的近似正则表达式

近似正则表达式(例如https://pypi.org/project/regex/中的正则表达式)允许对错误总数(插入、删除、替换)使用阈值。例如(?:foo){e<=2},允许匹配最多两个错误。这里的阈值指定为错误总数。是否有任何软件包允许我指定错误百分比,而不是总错误?

0 投票
1 回答
101 浏览

layout - 如何在 Galen 框架中指定近似边距?

我在响应式设计的网站中使用 galen 框架。而且我需要通过不给出固定像素数量而是百分比来检查元素。例如,我必须检查一个元素在左侧大约 10%。盖伦怎么说?我知道如何说“大约 10% 的宽度”,但我与这里的宽度和高度无关。我需要说屏幕左侧大约 %10。

任何帮助将不胜感激。谢谢!