问题标签 [partial-matches]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
29 浏览

python - 基于列之间的部分字符串匹配加入大数据帧

两个 DataFrame 的基因异构体名称的格式不同。我想做一个连接并为两个DataFrame中的 和name, isoform之间的所有部分字符串匹配添加df2列。是异构体/基因的关键,其中一个基因可以有许多异构体。在中,基本上是基因量化软件 (SALMON) 的输出,该字段同时包含基因和异构体。我不能使用正则表达式,因为异构体具有可变后缀,例如“.”、“_”、“-”等等。另一个重要的信息是每个细胞都有一个独特的异构体。isoform (df2)name (df1)df2df1namedf1["Name"]

要合并的 dfs 片段:

期望的输出:

实际 dfs 大小:

df1 = 143646 行 × 5 列

df2 = 169499 行 × 2 列

(因为df1可能没有检测到所有的异构体,它总是小于df2

我尝试了一些我在网上找到的答案,但是由于这个 dfs 的大小很大,许多需要 50gb 左右的 RAM ......

已检查: 基于部分子字符串匹配合并数据帧,基于python 中的部分字符串匹配加入数据帧,基于列之间的部分字符串匹配加入数据帧

谢谢您的帮助!

0 投票
1 回答
18 浏览

python - pandas 中复杂的部分字符串匹配

给定具有以下结构和值的数据框json_path-

json_path 报告组 实体/分组
data.attributes.total.children.[0] 基督徒家庭 亚伯拉罕家族
data.attributes.total.children.[0].children.[0] 基督徒家庭 在庄园
data.attributes.total.children.[0].children.[0].children.[0].children.[0] 基督徒家庭 现金
data.attributes.total.children.[0].children.[0].children.[1].children.[0] 基督徒家庭 投资级固定收益

我将如何过滤json_path包含children四次的行?即,我想过滤索引位置 2-3 -

json_path 报告组 实体/分组
data.attributes.total.children.[0].children.[0].children.[0].children.[0] 基督徒家庭 现金
data.attributes.total.children.[0].children.[0].children.[1].children.[0] 基督徒家庭 投资级固定收益

我知道如何获得部分匹配,但是方括号中的整数会不一致,所以我的直觉告诉我要以某种方式计算children(即children出现 4x)的实例并将其用作过滤的基础。

关于如何实现这一目标的任何建议或资源?

0 投票
1 回答
31 浏览

python - 如何拆分用户在 Django 应用程序的输入字段中插入的单词

我有一个搜索栏,它在 2 个模型列标题、正文、short_description 中进行搜索。我正在使用 MySQL 数据库。现在,我正在使用 Q 查找,但我想“改进”一些搜索限制。

其中之一是 Q 查找仅根据与字段完全相同的短语结果查找结果,例如,我有标题,why python is so amazing?我必须写whyor才能获得结果。我想要得到的是扩展搜索栏以按以下方式工作:pythonpython is

用户在搜索栏中插入一个问题:python language搜索查找正在拆分每个单词并返回所有包含pythonor的对象language。最后,结果将返回带有 的对象why python is so amazing?,无论它是用户放置的python language还是amazing python.

我在下面发布我当前的代码:

视图.py

我已经检查了这个解决方案这个解决方案,但结果并不令人满意,因为当我python language找到一个带有标题的对象时,why python is so amazing我没有得到任何结果。

问题

我将不胜感激有关如何获得基于用户输入输入字段的单词的所有对象列表的结果的任何建议。