“dmoz”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

819 浏览

python - 在 Python 中为类别查询解析 DMOZ 转储

我目前正在开展一个项目，该项目涉及查找与某个关键字相关的“知识领域”。我打算用 DMOZ 来做这件事。例如，“布拉德皮特”给出

等等...

我有来自 DMOZ 网站的 structure.rdf.u8 转储。有人向我提到，如果我不需要 URL，只需这个文件就足够了（我不需要网站，只需要与关键字有关的类别）。或者我还需要内容文件吗？

此外，我想知道使用 Python（任何库）解析结构文件的最佳方法。我对 XML 没有任何了解，尽管我很擅长 Python。

2013-08-04T15:16:40.783

0 投票

2 回答

3084 浏览

scrapy - scrapy 教程：无法运行 scrapy crawl dmoz

我在问一个新问题，因为我知道我在上一个问题中不够清楚。我正在尝试遵循scrapy教程，但我陷入了关键步骤，即“scrapy crawl dmoz”命令。代码就是这个（我已经在python shell中编写了它并保存它输入.py扩展名）：

我使用的目录应该没问题，请在树下找到：

现在，当我尝试运行“scapy crawl dmoz”时，我得到了这个：

有人知道我正在做的步骤有什么问题吗？谢谢您的帮助。这是我的第一次编程经验，所以这可能是一个非常愚蠢的问题。

scrapy web-crawler dmoz

2013-08-14T10:53:55.997

0 投票

0 回答

130 浏览

dmoz - 将 dmoz 目录转换为思维导图树

www.dmoz.org 在此处http://www.dmoz.org/rdf.html在 RDF 文件中提供全面的 Web 类别

我想使用上面链接中的 RDF 文件创建思维导图（例如使用诸如自由思维之类的工具）或可视化树。

有什么简单的方法吗？

dmoz mindmap

2013-11-29T00:11:51.013

0 投票

1 回答

672 浏览

python-2.7 - Scrapy 第一个教程 dmoz 返回 en 错误“TypeError: Can't use implementer with classes。改用其中一个类声明函数。”

运行 scrapy 的第一个教程时出错。
Scrapy：0.22.2
lxml：3.3.5.0
libxml2：2.7.8
Twisted：12.0.0
Python：2.7.2（默认，2012 年 10 月 11 日，20:14:37）-[GCC 4.2.1 兼容 Apple Clang 4.0（标签/Apple/clang-418.0.60)]
平台：Darwin-12.5.0-x86_64-i386-64bit

这是我的文件 items.py：

我的 dmoz_spider.py 文件：从 scrapy.spider 导入 BaseSpider

这是运行“scrapy crawl dmoz”时的错误消息

傻瓜-imac-2：教程傻瓜$ scrapy crawl dmoz /usr/local/share/tutorial/tutorial/spiders/dmoz_spider.py:3：ScrapyDeprecationWarning：tutorial.spiders.dmoz_spider.DmozSpider继承自弃用的类scrapy.spider.BaseSpider，请从 scrapy.spider.Spider 继承。（仅对第一个子类发出警告，可能还有其他子类） class DmozSpider(BaseSpider)：

2014-06-19 14:53:00-0500 [scrapy] 信息：Scrapy 0.22.2 已启动（机器人：教程）
2014-06-19 14:53:00-0500 [scrapy] 信息：可用的可选功能：ssl， http11
2014-06-19 14:53:00-0500 [scrapy] 信息：覆盖设置：{'NEWSPIDER_MODULE':'tutorial.spiders','SPIDER_MODULES':['tutorial.spiders'],'BOT_NAME':'tutorial '} 2014-06-19 14:53:00-0500 [scrapy] 信息：启用的扩展：LogStats、TelnetConsole、CloseSpider、WebService、CoreStats、SpiderState
Traceback（最近一次通话最后）：

文件“/usr/local/bin/scrapy”，第 5 行，在 pkg_resources.run_script('Scrapy==0.22.2', 'scrapy')
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/ Extras/lib/python/pkg_resources.py”，第 489 行，run_script self.require(requires)[0].run_script(script_name, ns)
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras /lib/python/pkg_resources.py”，第 1207 行，在 run_script execfile(script_filename, namespace, namespace)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/EGG- INFO/scripts/scrapy”，第 4 行，在 execute()
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”，第 143 行，在执行_run_print_help（解析器，_run_command，cmd，args，选择）
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”，第 89 行，在 _run_print_help func(*a, **kw)
文件“/Library /Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”，第 150 行，在 _run_command cmd.run(args, opts)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/commands/crawl.py”，第 50 行，在运行 self.crawler_process.start()
文件“/Library/Python/2.7/site-packages/ Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”，第 92 行，在 start if self.start_crawling():
File "/Library/Python/2.7/site-packages/Scrapy-0.22.2- py2.7.egg/scrapy/crawler.py"，第 124 行，在 start_crawling 中返回 self._start_crawler() 不是 None
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”，第 139 行，在 _start_crawler crawler.configure()
文件“/Library/Python/2.7 /site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”，第 47 行，在配置 self.engine = ExecutionEngine(self, self._spider_closed)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/engine.py”，第 63 行，在init self.downloader = Downloader(crawler)
文件“/Library/Python/2.7/site-packages /Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/init .py"，第 73 行，在init self.handlers = DownloadHandlers(crawler)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/init .py”，第 18 行，在init cls = load_object (clspath)
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/utils/misc.py”，第 40 行，在 load_object mod = import_module(module)
文件中“/System/Library /Frameworks/Python.framework/Versions/2.7/lib/python2.7/importlib/init .py”，第 37 行，在 import_module 导入（名称）
文件“/Library/Python/2.7/site-packages/Scrapy-0.22. 2-py2.7.egg/scrapy/core/downloader/handlers/s3.py”，第 4 行，从 .http 导入 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http.py”，第 5 行，从 .http11 导入 HTTP11DownloadHandler 作为 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http11.py”，第 15 行，从 scrapy.xlib.tx 导入代理， ProxyAgent，ResponseDone，\
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/init .py ”，第 6 行，来自 . 导入客户端，端点
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/client.py”，第 37 行，从 .endpoints 导入 TCP4ClientEndpoint， SSL4ClientEndpoint
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/endpoints.py”，第 222 行，在 interfaces.IProcessTransport，'_process'))：
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/zope/interface/declarations.py”，第 495 行，调用 raise TypeError("Can't use implementer with classes。使用“类型错误之一
：不能将实现器与类一起使用。请改用类声明函数之一。

python-2.7 scrapy dmoz

2014-06-19T20:09:03.767

0 投票

0 回答

441 浏览

python - 如何使用 python 和 rdflib 从 rdf 转储中解压 dmoz url？

我试图打开 rdf 文件（dmoz rdf 转储），但收到此错误消息

我的简单代码如下：

我需要能够读取文件。
提取世界类别中的所有链接。

感谢任何可能的帮助

编辑：

PS：找到这个维基百科 rdf_dumps，所以开发自定义脚本是使用这个转储的必要条件

python rdf rdflib dmoz

user2307154

2015-04-06T00:57:34.403

0 投票

1 回答

471 浏览

java - 使用 Jena 解析 structure.rdf.u8 时出现异常

我使用Jena文档中提供的上述代码来解析ODP。首先它给出了一些异常，所以我在 Jena 包中添加了所有jar文件并得到以下长异常：

`

我不知道我是否需要删除一些jar文件来修复此问题或 Apache 站点中提供的代码有误？

java exception exception-handling jena dmoz

2015-08-06T08:29:23.700

0 投票

0 回答

1144 浏览

java - jar 文件加载失败“加载类失败”

我正在尝试使用此代码解析 DMOZ文件。但是，在运行代码后，应用程序在开始时停止，产生以下异常：

如果 jar 设置为no-operation，那么为什么他们在这段代码中使用它？（如果是这样，如果不是这样，那么）如何解决这个问题？

编辑

根据这个我添加了另一个罐子，现在还有另一个例外：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:146) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:59) at dmozparser.DmozParser.main(DmozParser.java:339) Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory at java.net.URLClassLoader$1.run(URLClassLoader.java:372) at java.net.URLClassLoader$1.run(URLClassLoader.java:361) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:360) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 3 more

编辑 2

添加commons-logging-1.2.jar，现在似乎有一个UnsupportedOperationException：

Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@723279cf:java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(DocumentBuilderFactory.java:584) at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:1131) at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:1107) at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:1053) at org.apache.hadoop.conf.Configuration.set(Configuration.java:420) at org.apache.nutch.util.NutchConfiguration.setUUID(NutchConfiguration.java:41) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:60) at dmozparser.DmozParser.main(DmozParser.java:339)

这似乎org.apache.xerces.jaxp.DocumentBuilderFactoryImpl不受支持，但如何用合适的替换它？

java exception exception-handling dmoz

2015-10-19T05:20:30.117

0 投票

1 回答

437 浏览

python-2.7 - Scrapy dmoz 教程：_init_() 最多接受 2 个参数（给定 3 个）

PS C:\users\steve\tutorial> scrapy crawl dmoz

我的 dmoz spider python 脚本在这里

python-2.7 scrapy scrapy-spider dmoz

2015-10-19T13:49:52.057

问题标签 [dmoz]

Reference