问题标签 [htmlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
167 浏览

r - 从 XML 节点解析特定值

使用 R 和 XML 包,我使用 XML htmlParse 函数解析了一个 ("HTMLInternalDocument" "HTMLInternalDocument" "XMLInternalDocument" "XMLAbstractDocument") 对象。我感兴趣的 xml 对象中的行(见下文)包含我希望返回的两个值。

除了来自 class=gsc_1usr_name 的值(返回“Konrad Wrzecionkowski”)之外,我还需要提取“user=”下的值,在本例中为“QnVgFlYAAAAJ”。我用 xpathSApply 尝试了几种语法变体,它总是返回 NULL。诚然,我对 xml 很无知,有什么想法吗?有没有办法可以将它强制转换为不同的对象类,例如列表,然后在向量上使用拆分?标准强制转换(例如 as.list、as.character)似乎不适用于这个对象类。

它返回一个 xml 对象,下面是单个条目的子集,共 10 个。该h3 class="gsc_1usr_name行包含每个条目中我想要检索的值(对于所有 10 个)。

对 xpathSApply 函数使用以下语法,我返回“GVN Powell”,但也想要来自 user= 的值。我已经尝试了 h3[@user=''] 的变体,包括类的子查询,但是不能让其他任何东西工作。

我一直使用的方法是使用 url 和 readLines。然后我使用 strsplit 来提取所需的值。

这里的问题是 Google Scholar 似乎不喜欢网络抓取,并且代码会定期失败,并出现“无法打开连接,HTTP 状态为 '503 服务不可用”错误。但是,htmlParse 似乎并非如此。

0 投票
1 回答
23 浏览

python - Python html 解析

我正在尝试从 html 中提取 DetailID 值,例如查看源:http ://www.hgtv.com/

输出应该是466c141156dd2b88eeffedd780cf9126

我目前正在使用 re.search 搜索需要一段时间这是我的代码

有没有更好的方法可以更快地得到结果

0 投票
0 回答
17 浏览

html - 如果仅给出 css 属性,如何获取标签的值?

我想从 span 标签访问“Vinod kumar”。我该怎么做?

0 投票
0 回答
357 浏览

swift - 如何
在 SwiftSoup 中使用换行符更改标签?

我正在尝试使用 SwiftSoup 获得一个段落,html 有
代码。当我解析它时,它只是获取没有换行符的文本。如何更改
带有换行符的标签?

上面的代码只是打印“Parsed HTML into a doc”。没有换行。

0 投票
1 回答
1439 浏览

python - BeautifulSoup 用于在线 IDE?

本指南说,要使用请求和美丽汤从网站中提取一些信息,我们可以使用 BeautifulSoup(request, 'html5lib') 方法,但它声明它不会在在线 IDE 上运行。我想知道为什么会这样,是否有任何解决方法,是否使用在线 IDE。有不同的 HTML 解析器吗?