问题标签 [html-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 问题

0 投票

2 回答

5334 浏览

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码在页面中查找所有有趣的链接：

它的工作做得很好。不幸的是，在这个标签里面有很多嵌套的标签，比如font，b和不同的东西......我只想得到文本内容，没有任何其他 html 标签。

链接示例：

当然它很丑（而且标记并不总是一样的！）我想得到：

在文档中说要text=True在 findAll 方法中使用，但它会忽略我的正则表达式。为什么？我该如何解决？

2009-11-17T23:38:20.223

0 投票

2 回答

1400 浏览

html-parsing - 如何解析包含 javascript 的渲染网页

如何从呈现的网页中提取数据？其中java脚本会随时间更新数据。是否可以编写可以从网页 java 脚本访问变量的用户脚本？请提出可能的方法来实现这一目标。

html-parsing userscripts information-extraction

2009-11-19T18:38:03.993

0 投票

4 回答

1907 浏览

c# - 爬取基于登录的网站的最佳方法是什么？

我必须从网站（类似于，比如说，yahoomail.com）自动执行文件下载活动。要到达具有此文件下载链接的页面，我必须登录，从一个页面跳转到另一个页面以提供一些参数，如日期等，最后单击下载链接。

我正在考虑三种方法：

使用WatIN，开发一个windows服务，定期执行一些WatiN代码，遍历页面，下载文件。
使用 AutoIT（没什么想法）
使用简单的 HTML 解析技术（这里有几个问题，例如，登录后如何维护会话？登录后如何注销？

c#python watin web-crawler html-parsing

2009-11-20T04:38:13.550

0 投票

3 回答

3036 浏览

c# - C# Regex - 如何解析瑞典字母 åäöÅÄÖ 的字符串？

我正在尝试为这种格式的字符串解析 HTML 文件：

我想检索“305157”、“MyUsername”和“O22”中的第一个字母（可以是 T、K 或 O）中的信息。

我正在使用这个正则表达式；<a href="/userinfo/userinfo\.aspx\?ID=\d*" target="helgonmain">\w*</a> \w\d\d只要“\w”所在的位置没有任何åäöÅÄÖ，它就可以正常工作。

我该怎么办？

c#regex html-parsing

2009-11-23T21:35:37.847

0 投票

3 回答

5665 浏览

html-parsing - 解析网页

我有一个关于解析 HTML 页面，特别是论坛的问题，我想解析包含某些帖子标准的论坛或线程，我还没有定义算法，因为我之前只解析过结构文本格式，一个用例可能是复制和粘贴每个线程手动进入程序，或者插入一个 URL 像 http://www.forums.com/forum/showthread.php?t=46875&page=3让程序解析页面

鉴于这一切，我想知道：

是否可以解析 HTML 页面上的论坛主题？
这样做的最佳/最快/最简单的语言是什么？
如果我更喜欢 Java，我需要哪些工具/库？
还有什么我应该考虑的吗？

html-parsing

user207322

2009-11-23T23:05:28.877

0 投票

8 回答

90244 浏览

c# - 什么是解析？

解析是我在开发过程中经常遇到的事情，但作为一名初级人员，我认为我会在需要时掌握其中的窍门。在我当前的项目中，有人告诉我要为某个功能查找和使用 HTML 解析器，我在网上找到了一对。

但是 HTML 解析器实际上做了什么？解析一个对象意味着什么？

c#parsing html-parsing

2009-11-24T09:02:28.347

0 投票

2 回答

8168 浏览

css - 查找网站上使用的所有 CSS 样式

我有一个 DotNetNuke 皮肤，它有一个超过 3,500 行的 CSS 文件。它包含 YUI、Telerik、Cluetip 的样式以及网站的实际定制。老开发者只是不断地添加样式，从不清理旧的未使用的样式。

我想清理文件并将其设置为更易于管理的大小。我首先考虑扫描代码库，但这是 5,500 个文件，其中混合了 .aspx、.ascx 和 .cs 文件中应用的 CSS，以及有时来自生成的代码和有时来自 js 文件的 jQuery 应用样式。一些样式与类选择器一起应用，而另一些样式与 id 选择器一起应用。

有没有一种方法可以轻松检查网站在其所有页面中实际需要的样式？有没有一些爬虫可以做到这一点？

css dotnetnuke html-parsing

2009-11-25T09:33:31.843

0 投票

4 回答

1781 浏览

java - 在 XPath 表达式方面需要一些帮助。一个有效，另一个无效

我正在使用 COBRA HTMLParser，但没有运气解析一个特定的标签。这是来源：

我可以使用以下 XPath 来获取正确的信息：

无论我尝试什么组合，最后一个表达式都不起作用。我也尝试过以下方法，但没有帮助，

有什么建议么？

编辑：有一些关于 XML 非法的建议（老实说，我不确定为什么它是非法的，因为到目前为止我几乎到处都看到过）但我无法控制 XML （至少到星期一，直到我的其他朋友回来）。我正在尝试查看编写包含此信息的混搭的可行性。有什么办法可以禁用检查吗？

这是已解析的 XML：

我猜文档没有被正确解析。

java html xpath html-parsing cobra

2009-11-26T22:26:06.873

0 投票

2 回答

5144 浏览

c# - 用于清理 html 的 C# 库

我想知道.Net 中是否有一个库来清理和删除 html 文档中的未关闭标签？

c#html-parsing

2009-12-02T02:27:56.600

0 投票

1 回答

2357 浏览

python - 用beautifulsoup 分割一个逗号分隔的列表和链接

我在 HTML 文档的表格单元格中有一个逗号分隔的列表，但列表中的一些项目是链接的：

我一直在使用漂亮的汤来解析 html，我可以到达表，但是拆分它并返回大致如下的数据结构的最佳方法是：

python beautifulsoup html-parsing

2009-12-02T18:12:02.507

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parsing]

Reference