google-sheets - IMPORTXML 在 NCBI 网站的特定页面上返回 #N/A - 受刮擦保护？

Question

我正在尝试抓取此页面https://www.ncbi.nlm.nih.gov/gene/2597以使用IMPORTXML.

对于“官方全名”（e.g. glyceraldehyde-3-phosphate dehydrogenase），我试试这个：

=IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()")

给我#N/A

因此，我尝试更改""，''以使用放置 URL 和查询的单元格，以所有可能的方式更改查询：D。

我注意到我可以使用IMPORTHTML（并且在页面内有一些关于表格的信息）或者IMPORTRSS但无法获得我想要的信息。所以我认为该网站不会阻止抓取。

我认为这是一个 JS 或 XML 问题，但似乎并非如此（在我看来......也许我错过了一些东西）。我什至尝试IMPORTJSON从某人的代码中使用，但什么也得不到（老实说，可能太复杂而无法使用）。

我真的被封锁了，所以如果有人可以帮忙......？

score 1 · Accepted Answer

您可以尝试直接抓取源代码：

=ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 10000, 1)

然后做这样的事情来获得“也称为”的价值：

=REGEXREPLACE(QUERY(
 {{""; ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1)},
      {ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1); ""}},
 "select Col2 where Col1 contains'Also known as'"), "<dd>|</dd>", "")

google-sheets - IMPORTXML 在 NCBI 网站的特定页面上返回 #N/A - 受刮擦保护？

1 回答 1

Related

Reference