问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
2330 浏览

c# - 我可以使用在线数据构建自己的字典应用程序吗?

因为我是一个非英语母语的人,所以我经常使用字典。

现在我正在学习 C#,我正在考虑是否允许我构建一个将在我的机器上运行的应用程序,但它将使用 google/babefish 翻译服务或任何其他翻译/字典在线工具。每次在浏览器上搜索一个单词的翻译都需要时间。

如果合法,您如何看待这种类型的应用程序?在这一点上,我看到一些问题重新升级了查询、解析页面等的速度。

0 投票
6 回答
4292 浏览

python - 如何在保留html标签/结构的同时查找/替换html中的文本

我使用正则表达式来转换我想要的文本,但我想保留 HTML 标签。例如,如果我想用“堆栈下溢”替换“堆栈溢出”,这应该按预期工作:如果输入是stack <sometag>overflow</sometag>,我必须获取stack <sometag>underflow</sometag>(即字符串替换完成,但标签仍然存在......

0 投票
7 回答
38065 浏览

python - 在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合什么样的目的?

据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup。我为我正在进行的项目选择了 BeautifulSoup,但我选择它并没有什么特别的原因,只是觉得语法更容易学习和理解。但我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快。

所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候使用 BeautifulSoup 更好?还有其他值得考虑的库吗?

0 投票
3 回答
3552 浏览

c# - How to get the text from XML with position in the XML file?

I want to parse HTML (you can assume as a XML, converted via Tidy) and get all the text nodes (which means nodes in Body tag that are visible) and their location in the XML file. Location means the text position in the flat XML file.

0 投票
2 回答
1216 浏览

c# - HTML 敏捷包与 jquery

您是否知道 HTML Agility Pack 的任何扩展,它允许以 jQuery 样式(而不是 XPath)查询 HtmlDocument 对象(由 HAP 创建)?

0 投票
3 回答
947 浏览

sql - 从数据库文本字段中删除文本

我最近尝试将一堆博客文章从旧博客 (SharePoint) 导入到我当前的博客 (WordPress)。导入完成后,许多讨厌的<div>标签和其他 HTML 进入帖子的内容,这搞砸了我的网站呈现方式。

我能够查看 MySQL 数据库中的违规行,并想知道是否有办法选择性地删除可能导致问题的 HTML 文本。 我可能可以通过解析文本在 C# 中破解它,但我想弄清楚如果可以的话,我如何使用 SQL 来做到这一点。

如果您想查看其中一个文件在数据库文本字段中的样子的全文示例,我将完整的示例文件上传到我的网站

这是我想做的事情:

  • <![CDATA[<div><b>Body:</b>从每个文件的开头删除
  • 删除每个文件末尾的元信息,可能如下所示:

    /li>
  • 删除每一个<div>和结束</div>标记,它可能有一个类属性,如:

    注意:ExternalClass 末尾的十六进制字符串可以不同

我以前没有在 MySQL 中使用过 Update 语句,我不知道从哪里开始有选择地替换文本字段中的文本。我会在 SQL 语句中使用正则表达式来提供帮助吗?我将如何对远程数据库执行语句?

0 投票
2 回答
825 浏览

java - 可以使用 xpath 获取 html 锚标记的值吗?

如果我的 HTML 看起来像:

我能得到吗????使用 xpath 的价值?它会是什么样子?

0 投票
6 回答
68194 浏览

php - 通过 PHP 从网站中提取数据

我正在尝试为一些朋友创建一个简单的警报应用程序。

基本上我希望能够从如下两个网页中提取数据“价格”和“库存可用性”:

我已经通过电子邮件和短信部分发出警报,但现在我希望能够从网页(那两个或任何其他网页)中获取数量和价格,以便我可以比较可用的价格和数量并提醒我们如果产品介于某些阈值之间,则下订单。

我已经尝试了一些正则表达式(在一些教程中找到,但我对此太过分了)但还没有设法让它工作,有什么好的提示或例子吗?

0 投票
4 回答
58226 浏览

c# - 使用 C# 解析 HTML 以获取内容

我正在编写一个抓取我的一组网页的应用程序。而不是获取页面的整个源代码,我想获取所有内容并将其存储并能够将页面作为纯文本存储在数据库中。内容将在其他应用程序中使用,并且不会被用户阅读,因此不需要完全可读。

起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,而且很有可能没有正则表达式会给我内容。

如果我有一个字符串中的源代码,我怎样才能将该源代码字符串转换为 C# 中的内容?

0 投票
2 回答
23149 浏览

python - BeautifulSoup HTML 表格解析

我正在尝试从该站点解析信息(html 表):http ://www.511virginia.org/RoadConditions.aspx?j=All&r=1

目前我正在使用 BeautifulSoup,我的代码看起来像这样

问题在于开始列和结束列。他们只是被打印为“无”

输出:

我知道它们被存储在列列表中,但似乎额外的链接标记正在混淆原始 html 的解析,如下所示:

所以应该打印的是:

任何建议或帮助表示赞赏,并提前感谢您。