问题标签 [pubmed]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
168 浏览

xlrd - 使用 biopython 在 pubmed 上搜索

我正在尝试在 pubmed 中输入 200 多个条目,以记录作者发表的文章数量,并通过包括他/她的导师和机构来优化搜索。我曾尝试使用 biopython 和 xlrd (代码如下)来做到这一点,但我一直得到 0 结果的所有三种查询格式(1.按名称,2.按名称和机构名称,3.按名称和导师姓名)。是否有我可以执行的故障排除步骤,或者在使用下面指示的关键字在 pubmed 上进行搜索时,我应该使用不同的格式吗?

输入查询的示例输出;search_term 是带有输入查询列表的链表。

用于生成上述输入查询和在 Pubmed 上搜索的代码:

0 投票
1 回答
1211 浏览

python - 使用 BioPython 搜索 PubMed 并写入 CSV

我正在使用 BioPython 从他们的 PubMed 标题中填充有关引用数据的 CSV 文件。到目前为止,我已经写了这个:

然而,这会产生一个不寻常的输出,其中标题、摘要和 MeSH 术语分布在多个列中并且没有分开,我认为这是由于它们的类型。()。我希望我的 csv 表由三列组成,一列包含标题,另一列包含摘要,另一列包含网格术语。

我怎样才能做到这一点?

样本输出

为了澄清,第一列包含整个标题,摘要的开头和接下来的几列包含摘要的后续部分。我要求将它们分成不同的列。IE。第一列应该只包含标题。第二个只有摘要,第三个只有 MeSH 术语。

目前,第一列包含:

0 投票
1 回答
127 浏览

python - 使用 bs4 从 ID 获取 PubMed 数据

我正在做一个项目,从约 12,000 个 PubMed ID 的 CSV 文件中下载标题、摘要、出版年份和 MeSH 术语。我写了下面的代码:

当我运行它时,我收到以下错误:

我怎样才能解决这个问题?我也遇到了一个问题,即年份和标题并写在同一个单元格中,但我需要将它们放在不同的列中。我能做些什么来解决这个问题?

0 投票
1 回答
124 浏览

python - 使用 bs4 抓取 PubMed

我有一个 PubMed id 的数据集(一个 CSV 文件),我需要对其进行迭代,并为每个获取标题、出版年份、摘要和 MeSH 术语,然后我需要将其保存到具有以下格式的 CSV 文件中:

其中每个项目都位于不同的单独列中。我试图使用 bs4 来做到这一点并写了这个:

但是,这会引发关于将列表附加到 URL 的错误。我怎样才能解决这个问题。

0 投票
1 回答
161 浏览

r - 我如何从 pubmed 检索信息

我有一套pmid。我想知道是否可以获取标题、期刊、期号、页码和摘要等信息?

0 投票
1 回答
264 浏览

r - 将来自 for 循环的数据存储在数据框中

我正在尝试创建一个与 pubmed api 交互的函数,以检索与 100 个出版物关联的 xml 文件。然后我想单独解析 xml 文件以检索每个出版物的标题和每个出版物的摘要。我正在使用 Rentrez 包与 api 交互,并已成功检索到必要的 xml 文件。我正在使用 xml 包来解析 xml 文件,并已验证 Xpath 表达式检索到我想要的数据。事实上,我希望从其他领域(期刊标题、网格术语等)获取数据,但我在这里停留在这一步)

但是,我无法创建适当的 for 循环来将此数据移动到数据框中。我在运行代码时收到以下错误:

$<-.data.frame( *tmp*, "Abstract", value = list("text of abstract") 中的错误:替换有 1 行,数据有 0

当我测试接收标题信息的函数(通过删除表达式以检索抽象信息)时,我收到一个空数据框,其中没有关于我想要的标题的信息。但是没有错误信息。

如果我执行 pubmed_pa​​rsed("Kandel+Eric", n=2),我的目标是接收来自“ATitle”列中两个标题的字符向量的数据帧(标题:“Roles for small noncoding RNAs in silencing of retrotransposons在哺乳动物大脑中”和“ApCPEB4,一种含有 ApCPEB 同源物的非朊病毒结构域,参与了长期促进的启动”)。并且两个摘要中的字符向量相应地出现在“摘要”列中(摘要的部分:“Piwi-interacting RNAs (piRNAs), longthought to be limited to gremlin...”、“两种药理学上不同类型的局部突触特异性需要蛋白质合成……”)。

0 投票
0 回答
319 浏览

php - 将 curl 结果解析为 simpleXML 并使用这些结果创建新的 XML 数据

我从 PubMed 提取数据作为 XML 并使用 curl 处理我作为 SimpleXML 加载到另一个页面的结果。这使我能够获取我需要的信息(一个 pub ID 列表)并将其用作另一个 pubmed scrape 的变量。这个获取特定 pub ID 的摘要。这是我的第一个文件( $name 最终将是动态的):

它导出包含(除其他外)Pub Id 列表的 XML 数据。

xml 输出

然后我将它加载到另一个页面中,这样我就可以使用 SimpleXML 将 Pub ID 转换为变量。并使用该变量,尝试另一个 curl/pubmed 请求,这个请求基于这些 ID 提取摘要:

我可以将其导出为单独的引用,但我的问题是,我仍然需要能够获取第二组数据,以便我可以格式化某些内容,例如作者并排除不相关的数据。

完整引用

这是来自 ONE 结果的 XML。

我不知道如何获取第二组数据中的项目。消息来源显示它的格式仍然正确,但我不断收到“尝试获取非对象的属性”错误。

我考虑将这些结果发送到另一个文件并使用 SimpleXML 来控制它,但是因为我正在解析第一个文件并在同一页面上添加另一个 curl,所以当我添加标题时它似乎不喜欢它

任何帮助将不胜感激!

更新:感谢@EatPeanutButter 为我指明了正确的方向。通过使用 $cxml=simplexml_load_string($result); 而不是 $Cxml = new SimpleXMLElement($result); 我不仅能够获取我需要的数据,而且还可以将卷曲组合到一个页面上,如下所示。

现在,当然,这产生了一个新问题,我将作为后续问题发布!

0 投票
1 回答
533 浏览

php - 解析来自 PubMed 查询的 curl 结果并将其格式化为引文

这是这个问题的后续问题。

同样的想法:我从 PubMed 提取数据作为 XML 并使用 curl 来处理这些结果。这使我能够获取我需要的信息(pub ID 列表)并将其用作另一个 PubMed 抓取的变量。$name 最终将是动态的。

它返回以下 XML 数据(这是一个结果)。

因此呼应:

2016 年 10 月,Bhattacharya S.、Sobel JD.、White TC.,联合荧光分析表明,作为抗唑类阴道白色念珠菌分离株的抗性机制,外排泵活性增加。第 60 卷,第 10 期。期刊文章,抗菌剂和化疗。

  1. Zavrel M.,White TC.,医学上重要的真菌对唑类药物的反应:更新。第 10 卷,第 8 期。期刊文章,评论,未来微生物学。

  2. Esquivel BD.、Smith AR.、Zavrel M.、White TC.、唑类药物导入病原真菌烟曲霉。第 59 卷,第 6 期。期刊文章,抗菌剂和化疗。

2015 年 4 月 Achterman RR.、Moyes DL.、Thavaraj S.、Smith AR.、Blair KM.、White TC.、Naglik JR.,皮肤癣菌通过丝裂原活化蛋白激酶信号传导激活皮肤角质形成细胞并诱导免疫反应。第 83 卷,第 4 期。期刊文章,感染和免疫。

2015 年 2 月 3 日。福特 CB.、Funt JM.、Abbey D.、Issi L.、Guiducci C.、Martinez DA.、Delorey T.、Li BY.、White TC.、Cuomo C.、Rao RP.、Berman J ., Thompson DA., Regev A., 白色念珠菌临床分离株耐药性的演变。第 4 卷,问题。期刊文章,188bet体育电竞。

2014 年 8 月 1 日。White TC.、Findley K.、Dawson TL Jr.、Scheynius A.、Boekhout T.、Cuomo CA.、Xu J.、Saunders CW.、皮肤上的真菌:皮肤癣菌和马拉色菌。第 4 卷,第 8 期。期刊文章,评论,冷泉港医学观点。

2014 年 1 月 Maguire SL.、Wang C.、Holland LM.、Brunel F.、Neuvéglise C.、Nicaud JM.、Zavrel M.、White TC.、Wolfe KH.、Butler G.、锌指转录因子取代了 SREBP 蛋白作为 Saccharomycotina 进化过程中主要的甾醇调节剂。第 10 卷,第 1 期。期刊文章,公共科学图书馆遗传学。

2013 年 11 月 15 日。Campoli P.、Perlin DS.、Kristof AS.、White TC.、Filler SG.、Sheppard DC.、泊沙康唑在上皮细胞和真菌中的药代动力学:深入了解治疗和预防过程中的潜在作用机制。第 208 卷,第 10 期。期刊文章,传染病杂志。

2013 年 7 月 8 日。Achterman RR.,White TC.,皮肤癣菌。第 23 卷,第 13 期。期刊文章,当前生物学:CB。

等等。

一切都很好,并且只使用我需要的数据产生引用但我无法重新排序结果,所以作者排在第一位,PubDate 排在最后,等等。我尝试了很多选项,但我对其中任何一个都不够熟悉,并且似乎无法破解它。

我尝试附加 XSLT 样式表,但我认为这不起作用,因为我实际上并没有输出 XML 文件。也许?

我尝试使用以下 XPath 而不是底部的 SimpleXML 块来返回引文,但始终得到空白结果。因为所有数据都标记为<Item>,所以我尝试使用 Name 属性没有成功。

我也试过 DOMXPath 和 GetElementsByTagName 无济于事。

基本上,我被困住了。我已经尝试了很多变体并且得到了很多错误,我觉得我在绕圈子飞行。有更多 Xpath 或 XSLT 经验的人有想法吗?

0 投票
1 回答
256 浏览

r - 用于发布数据挖掘的 Entrez 和 RISmed 库

我正在使用这个“RISmed”库对我感兴趣的基因或蛋白质进行一些查询,输出基本上带有 pubmed ID,但大多数时候它也包含非特定命中,这不是我感兴趣的。因为我只能看到 pubmed ID,所以我必须手动输入那些返回的 ID,然后在 NCBI 中搜索它们,看看这篇论文是否是我感兴趣的。

问题:有没有办法返回论文的摘要或摘要类型以及它的 pumed ID,这可以在 R 中实现?

如果有人可以提供帮助,那就太好了..

0 投票
1 回答
705 浏览

python - 使用 Entrez 解析来自 PubMed 的出版物数据的问题

我正在尝试使用 Entrez 将发布数据导入数据库。搜索部分工作正常,但是当我尝试解析时:

...我收到以下错误:

解析中的文件“/venv/lib/python2.7/site-packages/Bio/Entrez/Parser.py”,第 296 行引发 ValueError(“XML 文件不代表列表。请使用 Entrez.read 而不是 Entrez .parse") ValueError:XML 文件不代表列表。请使用 Entrez.read 而不是 Entrez.parse

这段代码直到几天前才有效。任何想法这里可能出了什么问题?

此外,查看源代码(http://biopython.org/DIST/docs/api/Bio.Entrez-pysrc.html)并尝试遵循列出的示例,会给出相同的错误: