问题标签 [simple-html-dom]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
347 浏览

php - 如何通过 simplehtmldom 中的标签内容进行搜索?

我正在尝试使用 simplehtmldom 编写一个网络爬虫。我想通过搜索标签的内容来获取标签。这是里面的明文,不是标签的类型。然后,一旦我通过搜索其纯文本的内容获得了标签,我想在此之后获得下一个标签。

如何根据标签的内容找到标签?一旦我拥有它,我如何找到以下标签?

任何帮助,将不胜感激。

谢谢。

0 投票
3 回答
711 浏览

php - 无法使用 simplehtmldom 正确分隔单元格

我正在尝试编写一个网络爬虫。我想连续获取所有单元格。我想要的行之前的行有 THOROUGHBRED MEETINGS 作为其纯文本值。我可以成功得到这一行。但我不知道如何获取下一行的子单元格或<td>标签。

这是我要解析的html:

这是我的输出:

0 投票
2 回答
2448 浏览

php - 简单的 HTML DOM Parser 错误处理

我正在使用 SimpleHTMLDOM Parser 来处理网站,我想知道是否有任何错误处理方法。例如,如果链接被破坏,那么在代码中前进并搜索文档是没有用的。

谢谢你。

0 投票
1 回答
508 浏览

php - simple_html_dom - 手册中未涵盖的问题

你好,我正在使用 simple_html_dom 搜索带有 EXACT 类“hello”的所有标签实例

上面并没有完全做到这一点,因为它也给了我像“hello world”这样的类。计算并列出数组中的正确元素很简单,但是正在解析的源 html 会发生变化,因此这是不切实际的。

任何想法如何找到类的确切术语?

谢谢

0 投票
2 回答
1999 浏览

php - 使用 simple_html_dom 提取文档类型

simple_html_dom用来解析网站。有没有办法提取文档类型?

0 投票
2 回答
6737 浏览

domdocument - PHP 命令行脚本忽略 php.ini 和 ini_set('memory_limit',...) 指令

我面临常见的“致命错误:内存不足(分配 30408704)(试图分配 24 个字节)......”PHP 致命错误。通过 Apache 提供的页面没有表现出这种行为。

我尝试了以下方法:

  1. 将 php.ini 中的 memory_limit 增加到更大的值。
  2. 通过调用ini_set('memory_limit', -1), ini_set('memory_limit', '-1'), ini_set('memory_limit', 100000000),ini_set('memory_limit', '128M')等来增加脚本本身的 memory_limit。
  3. unset()ing 不需要的数组和对象,以鼓励垃圾收集器释放内存。
  4. 联系网络主机。他们通常非常有能力和知识渊博,但也无法帮助我解决这个问题。
  5. 我已经尝试使用-c命令行标志明确包含一个 php.ini 文件,以手动选择具有各种值的特定 php.ini 文件。
  6. 我尝试使用原始字节数和值(例如 64M、128M 等)在 php.ini 中设置 memory_limit。
  7. 托管服务提供商能够以 root 身份运行脚本而没有任何问题,但在使用非 root 用户运行脚本时遇到了同样的问题。也许涉及某种权限问题?

无论我尝试什么,错误消息都是一样的。看来我的命令行脚本忽略了对memory_limit.

我倾向于尝试确保我的脚本具有内存效率,但我目前需要通过简单的 HTML DOM解析大量的 HTML,并且在解析器中我遇到了内存不足的问题。为了减少脚本的内存占用,我尝试使用DOMDocument代替。这也无济于事。事实上,内存不足错误现在在脚本的其他地方触发。

我的问题:有没有人遇到过这个或类似的问题?你有什么建议?

谢谢你。

0 投票
4 回答
6009 浏览

php - Simple HTML DOM help

How can I extract the value attribute of an input tag? Using SIMPLE HTML DOM let me give you an example:

I want to extract just the value of hidden type input tag, not the others.

0 投票
1 回答
892 浏览

php - 使用 simpleHTML 删除嵌套标签

我正在尝试使用 simple_html_dom 从 HTML 片段中删除所有跨度,并且我正在使用以下内容:

这是我浏览器中的结果:

http://www.pixeloution.com/RAC/clean.gif

那么为什么我最终只移除了最外层的跨度呢?

编辑

实际上,如果有更简单的方法可以做到这一点,我就是游戏。目标是删除标签,但保留其中的任何内容,包括其他标签,否则我只使用 $obj->paintext

编辑#2

好吧......显然我得到了它的工作,虽然奇怪的是,如果有人以前遇到过这个问题,我仍然想真正理解这个问题。知道它只是删除最外面的跨度,我这样做了:

它似乎有效。

0 投票
3 回答
1558 浏览

php - 如何使用 html simple dom 获取 Content-type?

我尝试过find('meta[http-equiv="Content-type"]'),但未能检索到该信息。

0 投票
4 回答
6635 浏览

php - PHP 简单 HTML DOM 解析器中的故障

我正在使用 PHP Simple HTML DOM Parser 来抓取网上商店的一些数据(也使用 PHP5.3.0 运行 XAMPP 1.7.2),并且遇到了<tbody>标签问题。表的结构本质上是(细节并不那么重要):

现在,我正在尝试<tbody>使用代码进入该部分:

它不会抛出任何错误,当我尝试回显它时,它只会打印任何内容。我已经在其他元素上测试了代码,<thead>, <table>,甚至类似的东西<span class="price">,它们都工作正常(当然,删除“,0”会使代码失败)。他们都给出了正确的部分。外文同上。但这一切都失败了<tbody>

现在,我浏览了 Parser,但我不确定我是否能弄清楚。我注意到它<thead>甚至没有被提及,但它工作正常。耸耸肩

我想我可以尝试做儿童导航,但这似乎也有问题。我刚刚尝试运行:

没有骰子。尝试用 1 替换childrenfirst_child2,仍然没有骰子。不过,有趣的是,如果我尝试->find代替children,它会完美运行。

我非常有信心可以找到解决整个问题的方法,但是这种行为似乎很奇怪,可以在这里发布。我好奇的头脑很高兴能得到所有帮助。