使用谷歌表格。我正在尝试在此页面上获取 ETA 日期: https ://www.hapag-lloyd.com/en/online-business/tracing/tracing-by-booking.html?blno=HLCUEUR181027806#
将来,我将使用不同的 blno,因此 ETA 将根据 blno(提单号)而改变。未来,blno 将来自一个专栏。
我使用标准的网页检查方法来确定我想要的元素的 xpath 如下: //*[@id="ext-gen156"]
这是 ETA 日期的 XPath,在本例中是 2018 年 12 月 4 日,当您访问该页面时。
我使用以下内容填充 E4: https ://www.hapag-lloyd.com/en/online-business/tracing/tracing-by-booking.html?blno=HLCUEUR181027806#
我在 E5 中填充了://*[@id="ext-gen156"]
然后公式“=importxml(E4,E5)”给出结果“N/A”(在 F4 上)。
如果我将 E4 更改为 https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada
和 E5 到 //*[@id="mw-content-text"]/div/table[1]/tbody/tr[1]/td[6]/span/a[1]
它有效...它从不同的网站获取不同的信息。
我怀疑我在上述第一种情况下遇到问题的原因是它不是静态页面。也许它只适用于静态页面。
我试图理解 XPath 的含义,但它也很混乱。如果有人给我指出一个很好的解释,那也很有价值。例如,以下文档说您应该使用“。” 选择当前节点。在我尝试使用 XPath 的上下文中,当前是什么意思?似乎没有道理。
https://www.w3schools.com/xml/xpath_syntax.asp
任何战略指导将不胜感激。我可能做错了。我也联系了 Hapag-Lyod,看看他们是否有 RSS 提要,尽管我也是新手。
那么,对于那些做过类似事情的专家来说,解决这个项目的可能方向是什么?
我正在向后工作。我有一个目标,但我不知道所有的技术。我的背景更多是客户端应用程序,因此在涉及 Web 应用程序时我遇到了研究问题。希望我足够详细,但如果没有,请告诉我如何改进这个问题,我很乐意这样做。