问题标签 [dmoz]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
11 回答
90774 浏览

php - 在 PHP 中解析巨大的 XML 文件

我正在尝试将 DMOZ 内容/结构 XML 文件解析到 MySQL 中,但是所有现有的执行此操作的脚本都非常旧并且不能正常工作。如何在 PHP 中打开一个大的(+1GB)XML 文件进行解析?

0 投票
0 回答
1053 浏览

mysql - 如何将 DMOZ ODP RDF 转换为 MySQL?

我已经从rdf.dmoz.org下载了 DMOZ ODP结构内容档案。如何将它们从 RDF 转换为 MySQL?

问题是 ODP RDF 有缺陷,并且无法使用严格的解析器来解析它们。

我找到了 dmoz2mysql,但它在 30 分钟后因很长的 sql 转储而崩溃,所以我看不到错误消息。

0 投票
3 回答
2433 浏览

url - 如何从 Dmoz ODP 获取 URL

我想为我的应用程序使用 DMOZ ODP 中存在的 URL 数据库。(一个 URL 字符串数组或一个包含相同字符串的文件)。有没有办法获得它,(除了手动复制粘贴)?

编辑 :

是否有任何脚本/代码来解析 rdf 文件..

0 投票
1 回答
881 浏览

php - 使用 PHP 脚本解析 dmoz rdf 文件

我使用了 php 脚本

http://sourceforge.net/projects/dmoz2mysql/files/

下载、提取、清理、解析和插入 dmoz 数据到 MySQL 表中。我在处理 structure.rdf 时没有遇到任何问题。

但是在解析 content.rdf 时,插入 3200000 行后突然暂停,之后没有任何反应——我不得不在等待大约一个小时后强制退出。我在 Windows 命令提示符下运行此脚本。我不知道 PHP,因此我无法找到这个问题的原因。

0 投票
2 回答
334 浏览

php - Dmoz/Monster algorithme计算每个类别和子类别的计数?

我必须创建一个像 monter.com 或 dmoz 目录这样的浏览页面。我的问题是每个类别的计数。做类似事情的最佳实践是什么?我正在使用 PHP/MySQL Thx!

0 投票
1 回答
262 浏览

php - 使用 PHP 从 ODP DMOZ.org 获取网站的描述(元)

我正在开发一个 php 网站。我想做的是检索网站的描述或元信息。我希望做的是从 dmoz.org 获取信息,有没有办法做这样的事情?

如果没有,那么还有什么其他选择?卷曲?

非常感谢,

编辑:

显然我的问题并不清楚。dmoz.org 是一个开放目录,为您提供有关网站的信息。给出的信息不同于网站本身的元标记。所以我想做的是得到这样的信息..

0 投票
1 回答
1246 浏览

mysql - 如何在mysql和php中使用dmoz的rdf数据?

我已经通过网络搜索,但仍然无法得到可靠的答案。我的目标是利用 dmoz 的rdf 数据,所以这里有 2 个问题:

  1. 如何将rdf导入mysql?(可以使用任何可靠的工具吗?)

  2. 如何通过 SPARQL 使数据可查询?(我应该使用什么组件或查询引擎)

据我所知,我需要基于Redland RDF 库构建存储,然后我可以使用 SPARQL 查询它。但是进一步阅读redland,他们没有一个好的php文档。那些缺失的差距让我感到困惑,因为我对 rdf 技术还很陌生。

0 投票
2 回答
1755 浏览

php - 如何从 PHP 检测 DMOZ 目录中的站点列表

如何检测特定站点是否在 PHP 的 DMOZ 目录中被监听?

0 投票
2 回答
335 浏览

web-crawler - 从一个网站爬取多个网页

我想从网站中提取数据。比如说,URL 是http://www.example.com/。所以我把这个网址放进去start_urls(参考文档中DMOZ的例子)。但是当我输入一个字符串并单击一个按钮时,我还想创建一个 GUI,它将将该字符串附加到start_urls并提取所有可以访问的页面,例如http://www.example.com/computer/page- 1 . 那么你能告诉我如何使用循环来做到这一点吗?我尝试start_urls手动输入更多 URL 以检查它是否有效,但响应不佳。有时它没有反应。对此有什么想法吗?

0 投票
0 回答
27 浏览

python - DMOZ RDF 转储到 MySQL 或 SQLite

我已经从 dmoz.org 下载了最新的 rdf 转储,
现在我想在 python 中创建 SQLite 或 MySQL 数据库(最好是 MySQL)。默认情况下,python 不支持 MySQL,您必须使用以下命令安装它:

现在 rdf 转储是一个巨大的丑陋 XML 文件,有没有办法解析它并将其存储在具有三列的数据库表中:url、标题、描述?

谢谢大家的帮助...