问题标签 [simple-html-dom]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何通过 simplehtmldom 中的标签内容进行搜索?
我正在尝试使用 simplehtmldom 编写一个网络爬虫。我想通过搜索标签的内容来获取标签。这是里面的明文,不是标签的类型。然后,一旦我通过搜索其纯文本的内容获得了标签,我想在此之后获得下一个标签。
如何根据标签的内容找到标签?一旦我拥有它,我如何找到以下标签?
任何帮助,将不胜感激。
谢谢。
php - 无法使用 simplehtmldom 正确分隔单元格
我正在尝试编写一个网络爬虫。我想连续获取所有单元格。我想要的行之前的行有 THOROUGHBRED MEETINGS 作为其纯文本值。我可以成功得到这一行。但我不知道如何获取下一行的子单元格或<td>
标签。
这是我要解析的html:
这是我的输出:
php - 简单的 HTML DOM Parser 错误处理
我正在使用 SimpleHTMLDOM Parser 来处理网站,我想知道是否有任何错误处理方法。例如,如果链接被破坏,那么在代码中前进并搜索文档是没有用的。
谢谢你。
php - simple_html_dom - 手册中未涵盖的问题
你好,我正在使用 simple_html_dom 搜索带有 EXACT 类“hello”的所有标签实例
上面并没有完全做到这一点,因为它也给了我像“hello world”这样的类。计算并列出数组中的正确元素很简单,但是正在解析的源 html 会发生变化,因此这是不切实际的。
任何想法如何找到类的确切术语?
谢谢
php - 使用 simple_html_dom 提取文档类型
我simple_html_dom
用来解析网站。有没有办法提取文档类型?
domdocument - PHP 命令行脚本忽略 php.ini 和 ini_set('memory_limit',...) 指令
我面临常见的“致命错误:内存不足(分配 30408704)(试图分配 24 个字节)......”PHP 致命错误。通过 Apache 提供的页面没有表现出这种行为。
我尝试了以下方法:
- 将 php.ini 中的 memory_limit 增加到更大的值。
- 通过调用
ini_set('memory_limit', -1)
,ini_set('memory_limit', '-1')
,ini_set('memory_limit', 100000000)
,ini_set('memory_limit', '128M')
等来增加脚本本身的 memory_limit。 unset()
ing 不需要的数组和对象,以鼓励垃圾收集器释放内存。- 联系网络主机。他们通常非常有能力和知识渊博,但也无法帮助我解决这个问题。
- 我已经尝试使用
-c
命令行标志明确包含一个 php.ini 文件,以手动选择具有各种值的特定 php.ini 文件。 - 我尝试使用原始字节数和值(例如 64M、128M 等)在 php.ini 中设置 memory_limit。
- 托管服务提供商能够以 root 身份运行脚本而没有任何问题,但在使用非 root 用户运行脚本时遇到了同样的问题。也许涉及某种权限问题?
无论我尝试什么,错误消息都是一样的。看来我的命令行脚本忽略了对memory_limit
.
我倾向于尝试确保我的脚本具有内存效率,但我目前需要通过简单的 HTML DOM解析大量的 HTML,并且在解析器中我遇到了内存不足的问题。为了减少脚本的内存占用,我尝试使用DOMDocument代替。这也无济于事。事实上,内存不足错误现在在脚本的其他地方触发。
我的问题:有没有人遇到过这个或类似的问题?你有什么建议?
谢谢你。
php - Simple HTML DOM help
How can I extract the value attribute of an input tag? Using SIMPLE HTML DOM let me give you an example:
I want to extract just the value of hidden type input tag, not the others.
php - 使用 simpleHTML 删除嵌套标签
我正在尝试使用 simple_html_dom 从 HTML 片段中删除所有跨度,并且我正在使用以下内容:
这是我浏览器中的结果:
http://www.pixeloution.com/RAC/clean.gif
那么为什么我最终只移除了最外层的跨度呢?
编辑
实际上,如果有更简单的方法可以做到这一点,我就是游戏。目标是删除标签,但保留其中的任何内容,包括其他标签,否则我只使用 $obj->paintext
编辑#2
好吧......显然我得到了它的工作,虽然奇怪的是,如果有人以前遇到过这个问题,我仍然想真正理解这个问题。知道它只是删除最外面的跨度,我这样做了:
它似乎有效。
php - 如何使用 html simple dom 获取 Content-type?
我尝试过find('meta[http-equiv="Content-type"]')
,但未能检索到该信息。
php - PHP 简单 HTML DOM 解析器中的故障
我正在使用 PHP Simple HTML DOM Parser 来抓取网上商店的一些数据(也使用 PHP5.3.0 运行 XAMPP 1.7.2),并且遇到了<tbody>
标签问题。表的结构本质上是(细节并不那么重要):
现在,我正在尝试<tbody>
使用代码进入该部分:
它不会抛出任何错误,当我尝试回显它时,它只会打印任何内容。我已经在其他元素上测试了代码,<thead>
, <table>
,甚至类似的东西<span class="price">
,它们都工作正常(当然,删除“,0”会使代码失败)。他们都给出了正确的部分。外文同上。但这一切都失败了<tbody>
。
现在,我浏览了 Parser,但我不确定我是否能弄清楚。我注意到它<thead>
甚至没有被提及,但它工作正常。耸耸肩
我想我可以尝试做儿童导航,但这似乎也有问题。我刚刚尝试运行:
没有骰子。尝试用 1 替换children
和first_child
2,仍然没有骰子。不过,有趣的是,如果我尝试->find
代替children
,它会完美运行。
我非常有信心可以找到解决整个问题的方法,但是这种行为似乎很奇怪,可以在这里发布。我好奇的头脑很高兴能得到所有帮助。