问题标签 [textmatching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
51 浏览

regex - 在输出中也包含搜索到的正则表达式文本

我正在使用正则表达式re.findall(r"[0-9]+(.*?)\.\s(.*?)[0-9]+", text)来获取以下文本

但是我当前的输出没有前缀和后缀数字。我试图在输出中也有前缀数字,如下所示。

非常感谢任何帮助!提前致谢。

(电流输出如下)

电流输出

0 投票
0 回答
180 浏览

python - 使用余弦相似度法比较python中pandas数据框多列的文本

我正在寻找使用余弦相似度来计算熊猫数据框列之间的相似度。我有 6 个文本列分为 2 个部分,前 3 个列是第一部分 [textA,textB,textC],其余在第二个部分 [text1,text2,text3]。我必须将 sec1 中的每一列与 sec2 的所有列进行比较,并根据通过创建单独的列找到或未找到的匹配返回匹配项、相似性分数和真或假。

试图通过使用下面的代码来实现这一点,但无法完成它与如何对列进行矢量化和计算相似度,有人可以在这方面指导我吗,

预计输出如下数据的最后 3 列。

下面是csv格式的数据,

0 投票
0 回答
123 浏览

python - 数据框的多个文本列与名称列表之间的余弦相似度

嗨,我正在寻找计算数据帧的多个文本列之间的余弦相似度以及名称列表,以返回最佳匹配和相似度得分。还希望根据基于相似度阈值的分数返回真假。

示例数据如下所示,

#df1

#df2 或名称列表

#预期输出

有人可以帮我做到这一点。

0 投票
1 回答
48 浏览

python - 使用正则表达式读取多个换行符和空格之间的文本

我正在尝试使用正则表达式阅读这些带下划线的标题。

这些标题在标题开始前有两个以上的换行符和两个以上的空白字符。它在标题后有一个空格和两个换行符。标题全部用大写字母。

我试过了,r"(\n{2,}\s{2,})(?:([A-Z]+)\s([A-Z]*))"但没有用。

在此处输入图像描述

任何帮助是极大的赞赏!提前致谢。

0 投票
1 回答
185 浏览

python - 我可以让 Python 将昵称列表与全名列表进行比较吗?

所以首先我有一个字符数据框,它有一个名为 name 的列,包含 100 多人的全名。

例如,姓名:Johnathan Jay Smith、Harold Robert Doe、Katie Holt。

然后我有一个独特昵称的列表,例如,[Mr. 多伊、凯蒂阿姨、约翰]

需要注意的是,它们的顺序并不相同,并不是每个有昵称的人都在全名列表中,也不是每个全名列表中的人都在昵称列表中。我将删除最后没有匹配值的行。

我的问题:有没有一种方法可以让 python 逐项阅读这两个列表,并为每个匹配的人匹配 John 和 Johnathan Jay Smith?基本上,如果昵称作为整个名称的一部分出现,我可以在现有的字符数据框中添加一个昵称列,而无需为超过 100 人手动执行此操作吗?

提前谢谢你,我什至不知道从哪里开始!

0 投票
1 回答
38 浏览

java - 扫描文本以获取关键字列表,容忍拼写错误,确定文本的匹配分数

我有一个我现在无法自己解决的问题。我的任务如下:我有各种文本和字符串数组。字符串数组可以包含单个单词或单词组合,如下所示:["apple", "orange fruit", "strawberry field", "ananas", "tomato plant"].

现在我需要扫描我的文本以查找数组中的元素并确定分数。如果一个文本包含许多字符串(或它们的组合),它应该比其他文本产生更大的分数。如果可能,结果还应该容忍拼写错误。

有人可以给我一个提示,解决这个问题的最佳方法是什么?有没有可以帮助解决这个问题的库?我编码的语言是Java。

提前谢谢你们。

0 投票
0 回答
13 浏览

speech-to-text - 比较段落

我正在开发一个语音到文本的应用程序,并且必须检查音频对话是否与给定的脚本匹配。提取或意图是不够的。有什么办法吗?如果不是 LUIS,还有其他方法吗?我的音频语言不是英语。

0 投票
1 回答
49 浏览

xml - 如何匹配父元素中的特定文本 - 添加具有相同名称但文本不同的新子元素

我只是无法弄清楚我如何能够匹配指定的文本。所以我有以下 xml 数据。我想根据频道添加更多显示名称。

如您所见,我为每个频道指定了频道 ID 和显示名称。现在我想要 fe 附加到<display-name>Das Erste</display-name>, 也<display-name>Das Erste HD</display-name>。对于 ZDF、ZDF HD 或对于 HD 后缀 auch 'Kabel 1' 作为显示名称的“Kabel Eins”。还有一些其他渠道我想做一些调整。我尝试了一些东西,fe:

但什么都没有发生,所以我认为解决方案的关键是匹配正确的渠道。

0 投票
0 回答
8 浏览

string-matching - 我想使用 VBA 匹配两个不同 excel 文件中的列

子匹配列()

将 I、K、Lr 调暗为整数

将 Wb1 调暗为工作簿

将 Wb2 调暗为工作簿

将 sh1 调暗为工作表,将 sh2 调暗为工作表

Set Wb1 = Workbooks("RBP Cloud Accounting - 详细账户交易报表254")

Set Wb2 = Workbooks("RBP Cloud Accounting - VAT Return")

Set sh1 = Wb1.Sheets("明细账户交易")

Set sh2 = Wb2.Sheets("Transactions by VAT Box")

结束子

0 投票
1 回答
24 浏览

if-statement - 如果范围条件公式中的文本匹配 Google 表格错误

大家好,我正在尝试在 Google 表格中的一系列文本中进行匹配,基本上我使用的是这个公式:

但我收到一个错误,即:

在此处输入图像描述

我很确定这看起来很简单,但我迷路了,我希望有人能帮助我。