问题标签 [simple-html-dom]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2759 浏览

php - PHP:simple_html_dom - 如何查找不在某个类中的元素?

我在 PHP 中使用 simple_html_dom 来获取 html 页面中的所有 A 标记。但是有些标签在应该被忽略的 div 中。

我想我需要类似的东西:

$htmldom->find("!div[class=blabla] a");

我发现我可以用它[attribute!=value]来指定没有特定属性值的元素,但是这对元素有什么作用呢?

0 投票
2 回答
1387 浏览

php - PHP:如何将外来字符从 simple_html_dom 转换为 UTF8?

我在处理来自包含外来字符的网页的字符串时遇到了一些问题。

该字符串是通过使用 解析网页生成的str_get_html(),后跟$htmldom->innertext;(simple_html_dom 类库)。

htmlentities()当我使用它输出字符串时显示正常;但是explode()在字符串上使用并打印零件,我得到一个倾斜的块,其中每个外来字符都有一个问号。

我需要将字符串存储在utf8MySQL 数据库中,所以我需要正确的外来字符。

我的页面有一个带有utf8字符集的标题。

我已经尝试过mb_split()and preg_split(),但是那些有同样的问题。

0 投票
3 回答
249 浏览

php - PHP SimpleHTMLDom 抓取问题

我正在尝试使用 SimpleHTMLDom 进行抓取,并且似乎遇到了问题。

我的代码如下:

这会产生以下错误:

我究竟做错了什么?

0 投票
2 回答
198 浏览

php - 如何在两个特定关键字中获取html文件的所有文本

我有一个 html 文件和两个关键字,我想获取这两个关键字中的所有文本。我应该使用正则表达式吗?我想将这两个关键字作为输入。如果你举个例子会很有帮助。

0 投票
2 回答
1037 浏览

php - scrape data using regex and simplehtmldom

i am trying to scrape some data from this site : http://laperuanavegana.wordpress.com/ . actually i want the title of recipe and ingredients . ingredients is located inside two specific keyword . i am trying to get this data using regex and simplehtmldom . but its showing the full html text not just the ingredients . here is my code : <?php

there is multiple ingredients in this page . i want all of them . so using preg_match_all() it will be helpful if anybody detect the bug of this code . thanks in advance.

0 投票
1 回答
213 浏览

regex - 如何使用正则表达式获取文章的标题?

我想使用 regex 和 simplehtmldom 从此页面获取文章的标题:http: //laperuanavegana.wordpress.com/about/

在这种情况下,标题是:Cómo preparar SEITÁN

这是我的正则表达式:

如果有人帮助我找到错误,那将很有帮助。

0 投票
3 回答
3463 浏览

php - 在 PHP 简单的 HTML DOM 中保存文档

我对 PHP 简单的 HTML DOM 有疑问。

以下将代码保存在文本文档中...

但只有第一次创建它,如果我尝试更新它似乎不会覆盖

可能是什么问题呢?

编辑:当我运行 PHP 时,创建的文本文件没有更新。

网站确实发生了变化。

0 投票
1 回答
93 浏览

php - 如何彻底清洗滤芯?

我使用simplehtmldom.sourceforge.net

我需要清晰的元素$e <font size="2"><b>Listen to INT_routine on the January 15th, 2007 Urban-D Radio Podcast!</b></font>

我使用功能:$e->clear()元素删除,但离开</font>

如何彻底清洁元件?

0 投票
2 回答
3295 浏览

php - PHP:生产服务器上的内存使用率很高,而本地计算机上的内存使用率很低

我创建了一个 PHP 脚本,它从网站上抓取一些特定数据,查找相关信息并将其存储在数据库中。该脚本在本地计算机上运行良好,但是当我使用 cron 作业在实时服务器上运行它时,它在执行 10 次数据库插入后停止说

“致命错误:第809/home/content/36/78632936/html/scripts/simple_html_dom.php中允许的内存大小为 67108864 字节已用尽(尝试分配 35 个字节)”

我使用 get_memory_peak_usage() 在本地检查了相同的脚本,最大使用量约为 8 MB。

我很困惑为什么现场机器上的内存使用率非常高..任何帮助将不胜感激..

一瞥我的代码:

DB_table1:包含 60000 行数据的列表

主要代码首先调用 DB1 并获取数据,然后使用每一行数据形成一个 URL。这些 URL 中的每一个都将使用 simple_html_dom() 函数进行抓取,脚本将在每个页面上查找一些特定信息并将这些数据存储在另一个表 DB_table2 中。

如果您需要了解其他信息,请告诉我。谢谢 :)

0 投票
4 回答
5761 浏览

php - PHP - Simple HTML Dom parser - 500 Server Error

I'm running a simple CentOS 5.5 server with PHP 5.2.10. I'm trying to use PHP Simple HTML Dom parser but I get a 500 Server Error. Here is the script:

As you can see, I'm not even doing anything with the parser yet except trying to open a url. And that file_get_html is resulting in a 500 Server Error.

I don't see any errors showing up in the httpd error log. So I'm not sure where to look to figure out the problem. The only PHP requirements for Simple HTML Dom parser seem to be PHP 5+ (check) and php allow_url_fopen = On (check).