问题标签 [dmoz]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
819 浏览

python - 在 Python 中为类别查询解析 DMOZ 转储

我目前正在开展一个项目,该项目涉及查找与某个关键字相关的“知识领域”。我打算用 DMOZ 来做这件事。例如,“布拉德皮特”给出

等等...

我有来自 DMOZ 网站的 structure.rdf.u8 转储。有人向我提到,如果我不需要 URL,只需这个文件就足够了(我不需要网站,只需要与关键字有关的类别)。或者我还需要内容文件吗?

此外,我想知道使用 Python(任何库)解析结构文件的最佳方法。我对 XML 没有任何了解,尽管我很擅长 Python。

0 投票
2 回答
3084 浏览

scrapy - scrapy 教程:无法运行 scrapy crawl dmoz

我在问一个新问题,因为我知道我在上一个问题中不够清楚。我正在尝试遵循scrapy教程,但我陷入了关键步骤,即“scrapy crawl dmoz”命令。代码就是这个(我已经在python shell中编写了它并保存它输入.py扩展名) :

我使用的目录应该没问题,请在树下找到:

现在,当我尝试运行“scapy crawl dmoz”时,我得到了这个:

有人知道我正在做的步骤有什么问题吗?谢谢您的帮助。这是我的第一次编程经验,所以这可能是一个非常愚蠢的问题。

0 投票
0 回答
130 浏览

dmoz - 将 dmoz 目录转换为思维导图树

www.dmoz.org 在此处http://www.dmoz.org/rdf.html在 RDF 文件中提供全面的 Web 类别

我想使用上面链接中的 RDF 文件创建思维导图(例如使用诸如自由思维之类的工具)或可视化树。

有什么简单的方法吗?

0 投票
1 回答
672 浏览

python-2.7 - Scrapy 第一个教程 dmoz 返回 en 错误“TypeError: Can't use implementer with classes。改用其中一个类声明函数。”

运行 scrapy 的第一个教程时出错。
Scrapy:0.22.2
lxml:3.3.5.0
libxml2:2.7.8
Twisted:12.0.0
Python:2.7.2(默认,2012 年 10 月 11 日,20:14:37)-[GCC 4.2.1 兼容 Apple Clang 4.0(标签/Apple/clang-418.0.60)]
平台:Darwin-12.5.0-x86_64-i386-64bit

这是我的文件 items.py:

我的 dmoz_spider.py 文件:从 scrapy.spider 导入 BaseSpider

这是运行“scrapy crawl dmoz”时的错误消息

傻瓜-imac-2:教程傻瓜$ scrapy crawl dmoz /usr/local/share/tutorial/tutorial/spiders/dmoz_spider.py:3:ScrapyDeprecationWarning:tutorial.spiders.dmoz_spider.DmozSpider继承自弃用的类scrapy.spider.BaseSpider,请从 scrapy.spider.Spider 继承。(仅对第一个子类发出警告,可能还有其他子类) class DmozSpider(BaseSpider):

2014-06-19 14:53:00-0500 [scrapy] 信息:Scrapy 0.22.2 已启动(机器人:教程)
2014-06-19 14:53:00-0500 [scrapy] 信息:可用的可选功能:ssl, http11
2014-06-19 14:53:00-0500 [scrapy] 信息:覆盖设置:{'NEWSPIDER_MODULE':'tutorial.spiders','SPIDER_MODULES':['tutorial.spiders'],'BOT_NAME':'tutorial '} 2014-06-19 14:53:00-0500 [scrapy] 信息:启用的扩展:LogStats、TelnetConsole、CloseSpider、WebService、CoreStats、SpiderState
Traceback(最近一次通话最后):

文件“/usr/local/bin/scrapy”,第 5 行,在 pkg_resources.run_script('Scrapy==0.22.2', 'scrapy')
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/ Extras/lib/python/pkg_resources.py”,第 489 行,run_script self.require(requires)[0].run_script(script_name, ns)
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras /lib/python/pkg_resources.py”,第 1207 行,在 run_script execfile(script_filename, namespace, namespace)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/EGG- INFO/scripts/scrapy”,第 4 行,在 execute()
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 143 行,在执行_run_print_help(解析器,_run_command,cmd,args,选择)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 89 行,在 _run_print_help func(*a, **kw)
文件“/Library /Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 150 行,在 _run_command cmd.run(args, opts)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/commands/crawl.py”,第 50 行,在运行 self.crawler_process.start()
文件“/Library/Python/2.7/site-packages/ Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 92 行,在 start if self.start_crawling():
File "/Library/Python/2.7/site-packages/Scrapy-0.22.2- py2.7.egg/scrapy/crawler.py",第 124 行,在 start_crawling 中返回 self._start_crawler() 不是 None
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 139 行,在 _start_crawler crawler.configure()
文件“/Library/Python/2.7 /site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 47 行,在配置 self.engine = ExecutionEngine(self, self._spider_closed)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/engine.py”,第 63 行,在init self.downloader = Downloader(crawler)
文件“/Library/Python/2.7/site-packages /Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/init .py",第 73 行,在init self.handlers = DownloadHandlers(crawler)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/init .py”,第 18 行,在init cls = load_object (clspath)
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/utils/misc.py”,第 40 行,在 load_object mod = import_module(module)
文件中“/System/Library /Frameworks/Python.framework/Versions/2.7/lib/python2.7/importlib/init .py”,第 37 行,在 import_module 导入名称)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22. 2-py2.7.egg/scrapy/core/downloader/handlers/s3.py”,第 4 行,从 .http 导入 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http.py”,第 5 行,从 .http11 导入 HTTP11DownloadHandler 作为 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http11.py”,第 15 行,从 scrapy.xlib.tx 导入代理, ProxyAgent,ResponseDone,\
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/init .py ”,第 6 行,来自 . 导入客户端,端点
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/client.py”,第 37 行,从 .endpoints 导入 TCP4ClientEndpoint, SSL4ClientEndpoint
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/endpoints.py”,第 222 行,在 interfaces.IProcessTransport,'_process')):
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/zope/interface/declarations.py”,第 495 行,调用 raise TypeError("Can't use implementer with classes。使用“类型错误之一
:不能将实现器与类一起使用。请改用类声明函数之一。

0 投票
0 回答
441 浏览

python - 如何使用 python 和 rdflib 从 rdf 转储中解压 dmoz url?

我试图打开 rdf 文件(dmoz rdf 转储),但收到此错误消息

我的简单代码如下:

  1. 我需要能够读取文件。
  2. 提取世界类别中的所有链接。

感谢任何可能的帮助

编辑:

PS:找到这个维基百科 rdf_dumps,所以开发自定义脚本是使用这个转储的必要条件

0 投票
1 回答
471 浏览

java - 使用 Jena 解析 structure.rdf.u8 时出现异常

我使用Jena文档中提供的上述代码来解析ODP。首先它给出了一些异常,所以我在 Jena 包中添加了所有jar文件并得到以下长异常:

`

我不知道我是否需要删除一些jar文件来修复此问题或 Apache 站点中提供的代码有误?

0 投票
0 回答
1144 浏览

java - jar 文件加载失败“加载类失败”

我正在尝试使用此代码解析DMOZ文件。但是,在运行代码后,应用程序在开始时停止,产生以下异常:

如果 jar 设置为no-operation,那么为什么他们在这段代码中使用它?(如果是这样,如果不是这样,那么)如何解决这个问题?

编辑

根据这个我添加了另一个罐子,现在还有另一个例外:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:146) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:59) at dmozparser.DmozParser.main(DmozParser.java:339) Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory at java.net.URLClassLoader$1.run(URLClassLoader.java:372) at java.net.URLClassLoader$1.run(URLClassLoader.java:361) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:360) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 3 more

编辑 2

添加commons-logging-1.2.jar,现在似乎有一个UnsupportedOperationException

Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@723279cf:java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(DocumentBuilderFactory.java:584) at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:1131) at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:1107) at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:1053) at org.apache.hadoop.conf.Configuration.set(Configuration.java:420) at org.apache.nutch.util.NutchConfiguration.setUUID(NutchConfiguration.java:41) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:60) at dmozparser.DmozParser.main(DmozParser.java:339)

这似乎org.apache.xerces.jaxp.DocumentBuilderFactoryImpl不受支持,但如何用合适的替换它?

0 投票
1 回答
437 浏览

python-2.7 - Scrapy dmoz 教程:_init_() 最多接受 2 个参数(给定 3 个)

PS C:\users\steve\tutorial> scrapy crawl dmoz

我的 dmoz spider python 脚本在这里