问题标签 [fuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - 识别 2 个 HTML 页面是否相似
我正在尝试确定基本案例和提供的案例之间的差异。寻找一个图书馆来告诉我百分比或类似的相似性。
例如:
我有 10 个不同的 HTML 页面。* 都是 404 响应,只有一个 2 行随机代码(例如时间或当天的报价)。
现在,当我提供一个新的 404 页面时,我希望返回类似“%80”的结果,但是如果我提供另一个完全不同或相同网站但内容完全不同的页面,我应该得到一些“%20 相似”的结果。
基本上我想要做的是,当我得到一个新的回复时,我想确定新的回复是否与我之前提供的这 10 页相似。
我正在尝试在 .NET 中解决这个问题,库或算法推荐会很棒。
pattern-matching - 确定两个或多个摘要是否相似
问题如下:
我有一个摘要,通常在 20 到 50 个单词之间,我想将其与其他相对相似的摘要进行比较。摘要所指的一般类别和地理位置是已知的。
例如,如果来自同一地区的人们正在撰写关于建造房屋的文章,我希望能够列出这些摘要,并且在一定程度上确定他们实际上指的是建造房屋而不是建造车库或后院游泳池。
该数据集目前大约有 50 000 个文档,每天大约有 200 个文档的增长速度。
首选语言是 Python、PHP、C/C++、Haskell 或 Erlang,无论哪种语言都能完成工作。另外,如果您不介意,我想了解选择特定语言的原因。
algorithm - 模糊日期算法
我正在寻找一种模糊日期算法。我刚开始写一个,就意识到这是一项多么乏味的任务。它很快退化成许多可怕的代码来处理特殊情况,例如“昨天”、“上周”和“上个月末”之间的差异,所有这些都可以(在某些情况下)指同一天,但单独正确基于今天的日期。
我确信一定有一个开源的模糊日期格式化程序,但我找不到它。理想情况下,我想要使用 NSDate (OSX/iPhone) 及其格式化程序的东西,但这并不难。有谁知道模糊日期格式化程序采用相对于现在的任何时间段并返回一个字符串,例如(但不限于):
- 几分钟前
- 在最后五分钟
- 今天早些时候
- 今天早上
- 昨晚
- 上个星期
- 上周三
- 上月初
- 去年六月
- 几年前
在一个理想的世界中,我希望字符串尽可能丰富(即返回“Just a moment ago”的随机变体,例如“just now”)。
澄清。我正在寻找比基本的buckts和string更微妙的东西。我想要知道“昨天”和“上周三”都可以指同一时期但今天是星期四时只有一个是正确的。
java - 使用 Java 进行模糊日期解析
是否有任何 Java 库可以让您解释诸如“昨天”、“下周一”之类的日期......
django - django模糊字符串翻译没有出现
为什么有时我会在语言文件中得到一个
/li>fuzzy
项目。django.po
实际上,我已经在我的项目中检查了fuzzy
字符串项是完全唯一的。可以模糊,但我的模糊项目的翻译没有显示在页面上,只有英文版本显示。这很奇怪。
algorithm - 如何像 Excel 那样发现和分析类似的模式?
当您键入具有特定模式的 3 行并将列一直向下拖动时,您就知道 Excel 中的功能 Excel 会尝试为您继续该模式。
例如
类型...
- 测试一
- 测试2
- 测试3
Excel 将继续:
- 测试4
- 测试5
- 试...
同样适用于其他一些模式,例如日期等。
我正在尝试完成类似的事情,但我也想处理更多特殊情况,例如:
- 测试蓝色的东西
- 测试黄色的东西
- 测试红色的东西
现在基于这些条目,我想说模式是:
- 测试-[动态]-某事
继续使用其他颜色的 [DYNAMIC] 完全是另一回事,我现在真的不在乎。我最感兴趣的是检测模式中的 [DYNAMIC] 部分。
我需要从大量池条目中检测到这一点。假设您有 10.000 个具有这种模式的字符串,并且您希望根据相似性对这些字符串进行分组,并检测文本的哪个部分不断变化([DYNAMIC])。
文档分类在这种情况下可能很有用,但我不知道从哪里开始。
更新:
我忘了提到也可以有多个 [DYNAMIC] 模式。
如:
- test_[动态] 12 [动态2]
我认为这并不重要,但我计划在 .NET 中实现它,但任何有关使用算法的提示都会非常有帮助。
sql - Postgres 中的模糊分组
我有一个表格,其内容类似于:
…等等。我想按标题分组并忽略多余的部分。我知道 Postgres 可以做到这一点:
但是,这很简单,如果我试图预测所有可能的变化,那将变得非常笨拙。所以,问题是,有没有比使用正则表达式更通用的方法来进行模糊分组?是否有可能,至少在不伤筋动骨的情况下这样做?
编辑:为了澄清,没有任何变化的偏好,这是分组后表格的样子:
即,变化将是仅由几个字符或大写字母不同的项目,只要将它们分组,剩下哪些并不重要。
python - 如何在 python 中打印“模糊”时间/日期增量?
可能重复:
Python 中的自然/相对天数
有谁知道在哪里可以找到可以打印格式为“5 秒前”、“2 小时前”、“昨天”、“3 周前”等格式的时间元组的 python 模块?
django - Django 的 makemessages 创建了很多模糊条目
每次我向 Django 项目添加一些字符串时,我都会运行“django-admin.py makemessages -all”来为所有语言环境生成 .PO 文件。
问题是即使我只添加了 5 个新闻字符串,makemessages 命令也会在 .PO 文件中将 50 个字符串标记为模糊,这为我们的语言环境维护人员带来了很多额外的工作。
这也使得整个 i18n 在他们手动修改那些模糊字符串之前无法使用。