问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoup - 获取无 HTML 内容的简单方法
我正在使用此代码在页面中查找所有有趣的链接:
它的工作做得很好。不幸的是,在这个标签里面有很多嵌套的标签,比如font,b和不同的东西......我只想得到文本内容,没有任何其他 html 标签。
链接示例:
当然它很丑(而且标记并不总是一样的!)我想得到:
在文档中说要text=True
在 findAll 方法中使用,但它会忽略我的正则表达式。为什么?我该如何解决?
html-parsing - 如何解析包含 javascript 的渲染网页
如何从呈现的网页中提取数据?其中java脚本会随时间更新数据。是否可以编写可以从网页 java 脚本访问变量的用户脚本?请提出可能的方法来实现这一目标。
c# - 爬取基于登录的网站的最佳方法是什么?
我必须从网站(类似于,比如说,yahoomail.com)自动执行文件下载活动。要到达具有此文件下载链接的页面,我必须登录,从一个页面跳转到另一个页面以提供一些参数,如日期等,最后单击下载链接。
我正在考虑三种方法:
使用WatIN,开发一个windows服务,定期执行一些WatiN代码,遍历页面,下载文件。
使用 AutoIT(没什么想法)
使用简单的 HTML 解析技术(这里有几个问题,例如,登录后如何维护会话?登录后如何注销?
c# - C# Regex - 如何解析瑞典字母 åäöÅÄÖ 的字符串?
我正在尝试为这种格式的字符串解析 HTML 文件:
我想检索“305157”、“MyUsername”和“O22”中的第一个字母(可以是 T、K 或 O)中的信息。
我正在使用这个正则表达式;<a href="/userinfo/userinfo\.aspx\?ID=\d*" target="helgonmain">\w*</a> \w\d\d
只要“\w”所在的位置没有任何åäöÅÄÖ,它就可以正常工作。
我该怎么办?
html-parsing - 解析网页
我有一个关于解析 HTML 页面,特别是论坛的问题,我想解析包含某些帖子标准的论坛或线程,我还没有定义算法,因为我之前只解析过结构文本格式,一个用例可能是复制和粘贴每个线程手动进入程序,或者插入一个 URL 像 http://www.forums.com/forum/showthread.php?t=46875&page=3让程序解析页面
鉴于这一切,我想知道:
- 是否可以解析 HTML 页面上的论坛主题?
- 这样做的最佳/最快/最简单的语言是什么?
- 如果我更喜欢 Java,我需要哪些工具/库?
- 还有什么我应该考虑的吗?
c# - 什么是解析?
解析是我在开发过程中经常遇到的事情,但作为一名初级人员,我认为我会在需要时掌握其中的窍门。在我当前的项目中,有人告诉我要为某个功能查找和使用 HTML 解析器,我在网上找到了一对。
但是 HTML 解析器实际上做了什么?解析一个对象意味着什么?
css - 查找网站上使用的所有 CSS 样式
我有一个 DotNetNuke 皮肤,它有一个超过 3,500 行的 CSS 文件。它包含 YUI、Telerik、Cluetip 的样式以及网站的实际定制。老开发者只是不断地添加样式,从不清理旧的未使用的样式。
我想清理文件并将其设置为更易于管理的大小。我首先考虑扫描代码库,但这是 5,500 个文件,其中混合了 .aspx、.ascx 和 .cs 文件中应用的 CSS,以及有时来自生成的代码和有时来自 js 文件的 jQuery 应用样式。一些样式与类选择器一起应用,而另一些样式与 id 选择器一起应用。
有没有一种方法可以轻松检查网站在其所有页面中实际需要的样式?有没有一些爬虫可以做到这一点?
java - 在 XPath 表达式方面需要一些帮助。一个有效,另一个无效
我正在使用 COBRA HTMLParser,但没有运气解析一个特定的标签。这是来源:
我可以使用以下 XPath 来获取正确的信息:
无论我尝试什么组合,最后一个表达式都不起作用。我也尝试过以下方法,但没有帮助,
有什么建议么?
编辑:有一些关于 XML 非法的建议(老实说,我不确定为什么它是非法的,因为到目前为止我几乎到处都看到过)但我无法控制 XML (至少到星期一,直到我的其他朋友回来)。我正在尝试查看编写包含此信息的混搭的可行性。有什么办法可以禁用检查吗?
这是已解析的 XML:
我猜文档没有被正确解析。
c# - 用于清理 html 的 C# 库
我想知道.Net 中是否有一个库来清理和删除 html 文档中的未关闭标签?
python - 用beautifulsoup 分割一个逗号分隔的列表和链接
我在 HTML 文档的表格单元格中有一个逗号分隔的列表,但列表中的一些项目是链接的:
我一直在使用漂亮的汤来解析 html,我可以到达表,但是拆分它并返回大致如下的数据结构的最佳方法是: