问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
414 浏览

php - 如何使用简单的 html dom 解析器从搜索中跳过重复的内容

我想使用简单的 HTML dom 类从 HTML 页面中跳过某些重复的内容。假设您可以在此链接上看到:http://www.gutenberg.org/wiki/Category:Agriculture_Bookshelf Forestry来了 2 次。

一个在上面命名SD Forestry和在下面只有Forestry。所以这两个都有相同的链接,名为:/wiki/Forestry这给我带来了很多问题。

现在,当我在 foreach 循环中使用以下方法进行迭代时:$subhtml->find('a[href^="/wiki/"]')它会从页面中找到所有这些链接并拥有这样的链接,但我想要唯一的链接只意味着其中没有任何重复。

在同一页面上,查找Horticulture它们Horticulture (Bookshelf)都有相同的链接,例如 : /wiki/Horticulture_(Bookshelf)。但我想将它们视为一次,以便函数或某些 PHP 代码跳过 HTML 内容中的重复部分。

因此,当find函数启动时,它会简单地跳过重复的并仅将它们视为一个。

这是HTML代码:

谢谢你。

0 投票
0 回答
358 浏览

python - HTML 页面和 Python:提取正文并在其中分割文本

大故事

我想改进一个读取 EPUB 文件的 Python 应用程序。我想添加选项以“记住”读者最后停止的地方。这是github上此应用程序的链接


目前,我可以保存用户停止的最后一句话。我想用这些词在文本中找到它们,并从这个地方向读者展示。但是,我不知道如何分割从 html 文件正文中提取的文本并将其提供给格式化程序。

以下是所有这一切发生的摘录:

我认为我必须介入这条线

所以,各位,能不能给我建议一下我现在能做什么?

带着敬意

0 投票
1 回答
80 浏览

php - 使用 RegEx 或 HTML Parser 的 HTML 提取 API

我知道用于解析RegEx是公众舆论;但是,对于我想要实现的目标,我看不到使用(在以前的使用中添加了类似的功能,例如in )会有什么害处。 HTMLRegExScripting LanguagesRegEx_StringBetween( )AutoIt3

我也知道这_StringBetween( )不是专门为它编写的,但在过去的 8 年里,HTML我一直在与其他人一起使用它,在内容上没有任何问题。HTML

对于我来说HTML Extraction API,我想介绍以下内容HTML

API我试图写的原因是为了使提取video_urlthumbnail非常容易,因此HTML parser似乎遥不可及。我希望能够使用以下内容提取它

当然,在上一篇中,HTML你可以更容易地做到这一点,例如

但我试图提供一个完美的例子以避免混淆。

怎么RegEx上场?好吧,我打算用 和 替换和,当然还要{{video_url}}确保在提供的输入(不是)中没有多次出现and 。{{thumbnail}}{{unknown}}(.*?)(.*?).*/s{{video_url}}{{thumbnail}}HTML

那么,我有什么理由不使用RegEx或仍然选择HTML parser包含。RegEx可接受和/或使用的概念证明HTML parser我个人无法看到如何使用HTML parser

0 投票
1 回答
3144 浏览

java - JSoup 检查 , 和 标签是否存在

您好我正在使用 JSoup 解析 HTML 文件。解析后,我想检查文件是否包含标签。我正在使用以下代码来检查,

即使不存在 HTML 标记,我得到的输出也是“大小 1”。我的猜测是,这是因为 HTML 标签不是强制性的,而且它是隐式的。Head 和 Body 标签也是如此。有什么方法可以检查输入文件中是否存在这些标签?

谢谢你。

0 投票
1 回答
53 浏览

python - 为什么下载页面后href会改变

我正在制作一个网络解析器,一些 href 让我发疯

我在下载的页面中找到了这个:

您可以看到使用浏览器检索相同 url 的同一锚中的 href 是:

;jsessionid 被添加是因为机器人不管理 cookie,但这不是唯一的变化......为什么?

编辑:也许特定数量的会话会触发特定操作?

如果您下载网页,则单击下载的 href 将不起作用,但单击您在浏览器页面中看到的 href (view-source:link) 将起作用。

0 投票
1 回答
1461 浏览

python - 使用 HTMLParser 提取数据

我正在使用 python HTMLParser 模块从下面的 html 片段中提取值 Sam 和 John,但是handle_data函数只捕获 Sam 而不是 John。

我怎样才能同时得到山姆和约翰?

0 投票
1 回答
2304 浏览

delphi - Delphi HTML 解析与 HtmlP

我正在尝试解析一个 html 文件,以便可以从表中提取数据。
所以我做了一些谷歌魔术,最后在这里问了一个类似的问题。

在那个问题中,他们建议使用 HTMLP 来解析 html。所以我下载了这些单位并试了一下。

它有效,但我想我错过了一些东西。我完全不知道如何从元素中获取实际文本。

我查看了源代码,但我找不到任何关于此的内容。所以我希望这里有人知道答案。

提前致谢。

编辑

根据要求:我想获取的数据在这里
找到 我想获取这些数据并将每一行转换为将被存储的对象,以便我可以比较不同的做法、资格和种族。

0 投票
1 回答
692 浏览

dom - HTML中的自定义标签和php解析器

我有问题需要你的帮助。我想在我的脚本代码(如 [tag]

一个简单的代码:

我的第一个标签 [MY_PAGE_TITLE] 应该替换为像“我的网站”这样的世界,我想将它用于我的语言网站。我从一个数组中得到这个词:

但对于我的任何其他标签,我想将一些模块加载到左侧或右侧边栏或从我的数据库加载一些文章

我怎样才能做到这一点?

0 投票
2 回答
333 浏览

python - HTMLParser 误解了 href 中的实体。这是一个错误吗?我应该报告吗?

我不想知道如何解决这个问题,因为我已经自己解决了。我只是在问这是否真的是一个错误,以及我是否应该以及如何报告它。您可以在下面找到代码和输出:

以下是输出:

“/home?ID=123>3=7”

0 投票
1 回答
328 浏览

python - 格式错误的开始标记,在 python 2.6.9 中抛出异常,但在 2.7.4 HTMLParser 中没有

我在 python 中使用 urllib2 获取 url 内容,并将其置于 python 的本机 html 解析器中。代码在我的 python 2.7.4 上运行得非常好,但是,我朋友的机器有 python 2.6.9,他的机器上面临的问题是:

可能是某些开始标记不正确,在 python 2.6.9 中被作为异常抛出,但在 2.7.4 中却没有在
这里,将 2.6.9 升级到 2.7.4 或更高版本不是一个选项。