问题标签 [textmatching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2002 浏览

java - android espresso 测试在文本匹配中总是失败

我在浓缩咖啡测试中遇到问题,我不知道为什么匹配文本总是失败,我什至尝试创建简单的应用程序有两个活动,第一个活动有 textview 和两个按钮一个按钮显示吐司另一个去下一个活动,在录制过程中,当向文本添加断言并正确生成代码时,我运行测试它总是失败,显示此错误:

android.support.test.espresso.NoMatchingViewException:层次结构中没有找到匹配的视图:(id:com.example.admin.testtest2demoo:id/textView 和文本:是“Rooh”,子在父子位置的位置 0 0 in parent with id: android:id/content 并在屏幕上显示给用户)

这里是测试代码:

这是第一个活动的布局:

第二个活动只有一个文本视图,如果我在其上添加断言,它也会失败。

如果我评论文本断言测试将通过,但如果文本断言存在它总是失败,我还在每一步之后包括睡眠(我知道它与它无关,但以防万一),我无法理解代码是由录制生成,文本显示正确,但显示层次结构中未找到匹配的视图!

我做错了什么?!提前致谢

0 投票
0 回答
78 浏览

algorithm - 有效地消除重复文本匹配

我有一个包含多个步骤的文本处理应用程序。

在其中一个步骤中,我在文本的每个单词和输入之间运行 JaroWinkler,选择与输入最匹配的Text单词并获得它们的平均分数。我使用这个平均值来计算最终结果。这是一种天真的方法。

现在,Text对象列表超过 120k,并且有很多重复的单词(全部 300k 对 60k 唯一)。

现在我在这一步上花了很多时间。可以在这里做的一件事来缩短时间可能是在唯一词和所有输入词之间分别找到 JaroWinkler,然后在步骤中使用它。但这在记忆方面很糟糕。如果输入有 1000 个单词怎么办?我必须在内存中保留 1000 x 60k 的值。现在我没有在内存中保存任何东西,而是在 CPU 方面付费。

有没有更有效的方法来做到这一点?

0 投票
1 回答
69 浏览

r - 匹配r中不同数据帧中超过两个单词的单词

我有两个这样的数据框 DF1 和 DF2。

我想将数据框与 DF1 的“问题”和 DF2 的“问题列表”进行比较,如果 DF2 的“问题列表”列中的“问题”列中有两个以上的单词,那么我想填充后续的“Root_Cause”来自 DF2。我生成的数据框应该看起来像 DF3。

0 投票
0 回答
30 浏览

bash - 在另一个更复杂的 csv 中匹配一个 csv 的值

不幸的是,当我尝试使用以下 foreach 命令时,Oracle OSS UNIX 设备会产生错误。

这是我正在使用的:

我正在寻找(最好是 BASH/CSH/KSH/PYTHON[noob])命令行,它将逐个查找/匹配 File1 的各个条目并将整行从 File2 输出到 File3。File2 是巨大的,我可以从 File1 单个 grep 这些条目中的每一个,但需要自动化它。

原因:我有一个客户,他们可以在一种技术 (NODENAME) 上匹配他们的 WORKGROUP,但 File2.csv 不包含匹配的 WORKGROUP 解释,但 ABCD(CircuitID) 可能存在于多个技术平台上。这些 NODENAME 条目中的每一个的输出都创建为 CSV,我只能从其中一个 CSV 中提取匹配的 WORKGROUP。谢谢!!

0 投票
0 回答
57 浏览

python - 使用机器学习记录可能性

我想要达到什么目的?

  • 我已经对数据进行了分类(JSON 格式),我想生成一个模型,该模型应该让我能够使用现有分类数据生成新传入数据。(所有现有类的可能性)。
  • 例如,我将现有数据分为 2 类。tier1tier2。当我收到我想知道的新数据时,有多少%新数据与我现有的tier1数据匹配tier2!如果不匹配只想得到0 %

我的样本数据

传入数据和我的期望

  • 场景 1:传入数据:

期待:tier1: 0 %, tier2: 0 %

  • 场景 2:传入数据:

期待:tier1: X %, tier2: Y%

还有一些问题: 1. 解决这个问题的最佳方法是什么?2. 我在这里展示的数据只是2特征,但真正的输入数据有更多不同类型的字段。提取特征的最佳方法是什么!

0 投票
1 回答
436 浏览

python - 机器学习算法来查找相似或匹配的记录?

我有一个数据集,其中包含特定笔记本电脑(例如 Ram、硬盘)的记录/配置。现在我想创建一个算法,可以告诉我今年哪台笔记本电脑/台式机最接近该配置。我想根据最接近的匹配给出 3 个推荐?我应该使用哪种 ML 算法,最好的方法是什么?

0 投票
0 回答
28 浏览

python-3.x - Python 3 中的文本模式匹配

我有一个场景,我需要比较 2 个文本,并且基于它们的模式匹配响应应该是二进制的(真/假)

例子:

当长度相同时

当图案相同时

当模式不匹配时

Python 3 中是否有一个库来处理这种模式匹配?或者我如何通过python代码处理这个

0 投票
1 回答
43 浏览

powershell - PowerShell - 找到关键字A的第一个条目后查找关键字B的下一个条目

我正在寻找使用 Powershell 自动调整文本配置文件中的一些“最大值”值。配置文件看起来像这样(但包含大约 200 个条目)。

应当指出的是,

  • 虽然所有 ChannelName都应该有一个关联的“Max”条目,但如果人们过去错误地手动编辑了这个文件,有些可能不会
  • 'Max' 条目并不总是在频道名称之后的同一个位置,因此我们无法在找到我们感兴趣的频道名称后倒数 X 行

我很感激我没有包含一些适当的示例代码,但作为一个新手,我什么都做不了,因此寻求帮助。我希望代码按如下方式工作,

示例任务:将“ItemB”的“Max”值设置为 200

我们需要确保进行适当的错误检查,以确保 ItemC 的“Max”值不会因为本示例中缺少 ItemB 的“Max”值而错误地更改为 200。

0 投票
3 回答
96 浏览

python - 匹配所有内容的正则表达式,直到找到一个单词

我有一段重复多次的文本。在这里,您有该文本的示例:

文字的DEMO

这个想法是有一个包含三个组的正则表达式,并对任何匹配与文本重复此操作。这里有一个可能匹配的例子:

我正在尝试使用这个正则表达式:

它几乎可以工作。我需要在正则表达式中多说两件事:

  1. 在某些情况下,在最后一个 HORIZON... 之后可能会出现一些文本,例如第二种情况:

HORIZON-CL5-2022-D1-01-两级

  1. 我需要说“抓住一切”,直到“Opening:”这个词出现在一行的开头。我以为是用这部分表达式来做这件事, .*?^Opening但似乎不正确。

我该如何解决这个问题?

0 投票
1 回答
123 浏览

python - 检查文本字符串是否包含文本或类似文本

我有一个有趣的问题:

我有相当大的一段文字,我想检查该段落是否包含某些短语。现在,不允许直接匹配,因为我想知道该段落是否包含短语或类似短语,例如,如果我有一个隐私政策文档,并且我想检查该文档是否提到任何关于“跟踪 cookie”的内容,我将如何去做这件事?

我正在用 Python 做。