问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - HTML 敏捷包 - 解析表
我想使用 HTML 敏捷包来解析来自复杂网页的表格,但我不知何故迷失在对象模型中。
我查看了链接示例,但没有以这种方式找到任何表格数据。我可以使用 XPath 来获取表格吗?在加载有关如何获取表格的数据后,我基本上迷失了。我以前在 Perl 中做过这个,有点笨拙,但是很有效。( HTML::TableParser
)。
如果有人能阐明解析的正确对象顺序,我也很高兴。
java - 如何在 HTML 文件中搜索某些标签?
我在 Java 中遇到了一个小问题。如何做到这一点:我想在 HTML 文件中搜索标签 href 和 src,然后我想获取与该标签关联的 URL。
最好的方法是什么?
谢谢您的帮助。最好的祝福。
html - 可变顺序正则表达式语法
有没有办法表明两个或多个正则表达式可以以任何顺序出现?例如,XML 属性可以按任何顺序编写。假设我有以下 XML:
我将如何编写一个检查类和标题并适用于这两种情况的匹配项?我主要是在寻找允许我以任何顺序检查的语法,而不仅仅是匹配类和标题,因为我可以做到这一点。除了包含两个组合并用“|”连接它们之外,还有什么办法吗?
编辑:我的偏好是在单个正则表达式中执行它,因为我正在以编程方式构建它并对其进行单元测试。
.net - 从 HTML 标签汤生成 .NET XmlDocument 的库
我正在寻找一个 .NET 库,它可以从无效的 HTML 代码生成干净的 Xml 树,最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)
我意识到这有很多(太多了?)要问,我会很感激任何有用的线索。对于 Java,似乎有相当多的实现,但我宁愿不生成自己的绑定。到目前为止,对于 .NET,我发现http://www.majestic12.co.uk/projects/html_parser.php和http://users.rcn.com/creitzel/tidy.html#dotnet和http://sourceforge .net/projects/tidyfornet。
我还没有构建或测试任何这些,但是从(稀疏的)文档和罕见的更新来看,它们似乎没有我想要的东西。那么你有什么建议,无论是在这些选择中,还是从你过去的经验中。
python - 在 Python 中解析 HTML
如果我不能使用 BeautifulSoup 或 lxml,那么解析 HTML 的最佳选择是什么?我有一些使用 SGMLlib 的代码,但它有点低级,现在已弃用。
我更喜欢它可以忍受一些格式错误的 HTML,尽管我很确定大部分输入都会很干净。
php - 如何从 html 标签中删除属性?
如何使用 php 从标签中删除所有/任何属性,比如段落标签?
<p class="one" otherrandomattribute="two">
至<p>
html - 你能提供解析HTML的例子吗?
如何用多种语言和解析库解析 HTML?
回答时:
个别评论将链接到有关如何使用正则表达式解析 HTML 的问题的答案中,以显示正确的做事方式。
为了保持一致性,我要求该示例为href
in 锚标记解析 HTML 文件。为了便于搜索此问题,我要求您遵循此格式
语言:[语言名称]
图书馆:[图书馆名称]
请将图书馆作为图书馆文档的链接。如果您想提供除提取链接以外的示例,还请包括:
目的:[解析的作用]
html-parsing - 使用 nutch 1.0 和自定义插件解析 html 数据
我目前正在尝试为 nutch 1.0 编写一个自定义插件。这个插件应该解析 html 数据并从文档中过滤掉相关信息。我有一个基本插件工作,它扩展了 HtmlParserResult 对象,并且每次我进行解析时都会执行。
我目前面临两个问题:
我不太了解 nutch 解析的工作流程/管道。我在 nutch 网站上找不到有关此的信息。
我不明白 DOM 解析是如何完成的,我看到 Nutch 有一组 DOM 对象,并且 HtmlParser 插件进行了一些 DOM 解析,但我仍然没有弄清楚如何最好地完成。
c# - Html 敏捷包 - 解析
我想从简单的网站上抓取一个事实列表。每个事实都包含在一个<li>
标签中。我将如何使用 Html Agility Pack 做到这一点?有更好的方法吗?
<li>
标签中包含的唯一内容是事实,仅此而已。
php - 如何使用 dom php 解析器
我是 PHP 中 DOM 解析的新手:
我有一个要解析的 HTML 文件。它有一堆像这样的DIV:
我正在尝试使用 php 获取许多 div 框的内容。如何使用 DOM 解析器来执行此操作?
谢谢!