问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5334 浏览

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码在页面中查找所有有趣的链接:

它的工作做得很好。不幸的是,在这个标签里面有很多嵌套的标签,比如fontb和不同的东西......我只想得到文本内容,没有任何其他 html 标签。

链接示例:

当然它很丑(而且标记并不总是一样的!)我想得到:

在文档中说要text=True在 findAll 方法中使用,但它会忽略我的正则表达式。为什么?我该如何解决?

0 投票
2 回答
1400 浏览

html-parsing - 如何解析包含 javascript 的渲染网页

如何从呈现的网页中提取数据?其中java脚本会随时间更新数据。是否可以编写可以从网页 java 脚本访问变量的用户脚本?请提出可能的方法来实现这一目标。

0 投票
4 回答
1907 浏览

c# - 爬取基于登录的网站的最佳方法是什么?

我必须从网站(类似于,比如说,yahoomail.com)自动执行文件下载活动。要到达具有此文件下载链接的页面,我必须登录,从一个页面跳转到另一个页面以提供一些参数,如日期等,最后单击下载链接。

我正在考虑三种方法:

  1. 使用WatIN,开发一个windows服务,定期执行一些WatiN代码,遍历页面,下载文件。

  2. 使用 AutoIT(没什么想法)

  3. 使用简单的 HTML 解析技术(这里有几个问题,例如,登录后如何维护会话?登录后如何注销?

0 投票
3 回答
3036 浏览

c# - C# Regex - 如何解析瑞典字母 åäöÅÄÖ 的字符串?

我正在尝试为这种格式的字符串解析 HTML 文件:

我想检索“305157”、“MyUsername”和“O22”中的第一个字母(可以是 T、K 或 O)中的信息。

我正在使用这个正则表达式;<a href="/userinfo/userinfo\.aspx\?ID=\d*" target="helgonmain">\w*</a> \w\d\d只要“\w”所在的位置没有任何åäöÅÄÖ,它就可以正常工作。

我该怎么办?

0 投票
3 回答
5665 浏览

html-parsing - 解析网页

我有一个关于解析 HTML 页面,特别是论坛的问题,我想解析包含某些帖子标准的论坛或线程,我还没有定义算法,因为我之前只解析过结构文本格式,一个用例可能是复制和粘贴每个线程手动进入程序,或者插入一个 URL 像 http://www.forums.com/forum/showthread.php?t=46875&page=3让程序解析页面

鉴于这一切,我想知道:

  1. 是否可以解析 HTML 页面上的论坛主题?
  2. 这样做的最佳/最快/最简单的语言是什么?
  3. 如果我更喜欢 Java,我需要哪些工具/库?
  4. 还有什么我应该考虑的吗?
0 投票
8 回答
90244 浏览

c# - 什么是解析?

解析是我在开发过程中经常遇到的事情,但作为一名初级人员,我认为我会在需要时掌握其中的窍门。在我当前的项目中,有人告诉我要为某个功能查找和使用 HTML 解析器,我在网上找到了一对。

但是 HTML 解析器实际上做了什么?解析一个对象意味着什么?

0 投票
2 回答
8168 浏览

css - 查找网站上使用的所有 CSS 样式

我有一个 DotNetNuke 皮肤,它有一个超过 3,500 行的 CSS 文件。它包含 YUI、Telerik、Cluetip 的样式以及网站的实际定制。老开发者只是不断地添加样式,从不清理旧的未使用的样式。

我想清理文件并将其设置为更易于管理的大小。我首先考虑扫描代码库,但这是 5,500 个文件,其中混合了 .aspx、.ascx 和 .cs 文件中应用的 CSS,以及有时来自生成的代码和有时来自 js 文件的 jQuery 应用样式。一些样式与类选择器一起应用,而另一些样式与 id 选择器一起应用。

有没有一种方法可以轻松检查网站在其所有页面中实际需要的样式?有没有一些爬虫可以做到这一点?

0 投票
4 回答
1781 浏览

java - 在 XPath 表达式方面需要一些帮助。一个有效,另一个无效

我正在使用 COBRA HTMLParser,但没有运气解析一个特定的标签。这是来源:

我可以使用以下 XPath 来获取正确的信息:

无论我尝试什么组合,最后一个表达式都不起作用。我也尝试过以下方法,但没有帮助,

有什么建议么?

编辑:有一些关于 XML 非法的建议(老实说,我不确定为什么它是非法的,因为到目前为止我几乎到处都看到过)但我无法控制 XML (至少到星期一,直到我的其他朋友回来)。我正在尝试查看编写包含此信息的混搭的可行性。有什么办法可以禁用检查吗?

这是已解析的 XML:

我猜文档没有被正确解析。

0 投票
2 回答
5144 浏览

c# - 用于清理 html 的 C# 库

我想知道.Net 中是否有一个库来清理和删除 html 文档中的未关闭标签?

0 投票
1 回答
2357 浏览

python - 用beautifulsoup 分割一个逗号分隔的列表和链接

我在 HTML 文档的表格单元格中有一个逗号分隔的列表,但列表中的一些项目是链接的:

我一直在使用漂亮的汤来解析 html,我可以到达表,但是拆分它并返回大致如下的数据结构的最佳方法是: