问题标签 [dmoz]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Python 中为类别查询解析 DMOZ 转储
我目前正在开展一个项目,该项目涉及查找与某个关键字相关的“知识领域”。我打算用 DMOZ 来做这件事。例如,“布拉德皮特”给出
等等...
我有来自 DMOZ 网站的 structure.rdf.u8 转储。有人向我提到,如果我不需要 URL,只需这个文件就足够了(我不需要网站,只需要与关键字有关的类别)。或者我还需要内容文件吗?
此外,我想知道使用 Python(任何库)解析结构文件的最佳方法。我对 XML 没有任何了解,尽管我很擅长 Python。
scrapy - scrapy 教程:无法运行 scrapy crawl dmoz
我在问一个新问题,因为我知道我在上一个问题中不够清楚。我正在尝试遵循scrapy教程,但我陷入了关键步骤,即“scrapy crawl dmoz”命令。代码就是这个(我已经在python shell中编写了它并保存它输入.py扩展名) :
我使用的目录应该没问题,请在树下找到:
现在,当我尝试运行“scapy crawl dmoz”时,我得到了这个:
有人知道我正在做的步骤有什么问题吗?谢谢您的帮助。这是我的第一次编程经验,所以这可能是一个非常愚蠢的问题。
dmoz - 将 dmoz 目录转换为思维导图树
www.dmoz.org 在此处http://www.dmoz.org/rdf.html在 RDF 文件中提供全面的 Web 类别
我想使用上面链接中的 RDF 文件创建思维导图(例如使用诸如自由思维之类的工具)或可视化树。
有什么简单的方法吗?
python-2.7 - Scrapy 第一个教程 dmoz 返回 en 错误“TypeError: Can't use implementer with classes。改用其中一个类声明函数。”
运行 scrapy 的第一个教程时出错。
Scrapy:0.22.2
lxml:3.3.5.0
libxml2:2.7.8
Twisted:12.0.0
Python:2.7.2(默认,2012 年 10 月 11 日,20:14:37)-[GCC 4.2.1 兼容 Apple Clang 4.0(标签/Apple/clang-418.0.60)]
平台:Darwin-12.5.0-x86_64-i386-64bit
这是我的文件 items.py:
我的 dmoz_spider.py 文件:从 scrapy.spider 导入 BaseSpider
这是运行“scrapy crawl dmoz”时的错误消息
傻瓜-imac-2:教程傻瓜$ scrapy crawl dmoz /usr/local/share/tutorial/tutorial/spiders/dmoz_spider.py:3:ScrapyDeprecationWarning:tutorial.spiders.dmoz_spider.DmozSpider继承自弃用的类scrapy.spider.BaseSpider,请从 scrapy.spider.Spider 继承。(仅对第一个子类发出警告,可能还有其他子类) class DmozSpider(BaseSpider):
2014-06-19 14:53:00-0500 [scrapy] 信息:Scrapy 0.22.2 已启动(机器人:教程)
2014-06-19 14:53:00-0500 [scrapy] 信息:可用的可选功能:ssl, http11
2014-06-19 14:53:00-0500 [scrapy] 信息:覆盖设置:{'NEWSPIDER_MODULE':'tutorial.spiders','SPIDER_MODULES':['tutorial.spiders'],'BOT_NAME':'tutorial '} 2014-06-19 14:53:00-0500 [scrapy] 信息:启用的扩展:LogStats、TelnetConsole、CloseSpider、WebService、CoreStats、SpiderState
Traceback(最近一次通话最后):文件“/usr/local/bin/scrapy”,第 5 行,在 pkg_resources.run_script('Scrapy==0.22.2', 'scrapy')
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/ Extras/lib/python/pkg_resources.py”,第 489 行,run_script self.require(requires)[0].run_script(script_name, ns)
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras /lib/python/pkg_resources.py”,第 1207 行,在 run_script execfile(script_filename, namespace, namespace)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/EGG- INFO/scripts/scrapy”,第 4 行,在 execute()
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 143 行,在执行_run_print_help(解析器,_run_command,cmd,args,选择)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 89 行,在 _run_print_help func(*a, **kw)
文件“/Library /Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/cmdline.py”,第 150 行,在 _run_command cmd.run(args, opts)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/commands/crawl.py”,第 50 行,在运行 self.crawler_process.start()
文件“/Library/Python/2.7/site-packages/ Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 92 行,在 start if self.start_crawling():
File "/Library/Python/2.7/site-packages/Scrapy-0.22.2- py2.7.egg/scrapy/crawler.py",第 124 行,在 start_crawling 中返回 self._start_crawler() 不是 None
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 139 行,在 _start_crawler crawler.configure()
文件“/Library/Python/2.7 /site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/crawler.py”,第 47 行,在配置 self.engine = ExecutionEngine(self, self._spider_closed)
文件“/Library/Python/2.7/ site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/engine.py”,第 63 行,在init self.downloader = Downloader(crawler)
文件“/Library/Python/2.7/site-packages /Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/init .py",第 73 行,在init self.handlers = DownloadHandlers(crawler)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/init .py”,第 18 行,在init cls = load_object (clspath)
文件中“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/utils/misc.py”,第 40 行,在 load_object mod = import_module(module)
文件中“/System/Library /Frameworks/Python.framework/Versions/2.7/lib/python2.7/importlib/init .py”,第 37 行,在 import_module 导入(名称)
文件“/Library/Python/2.7/site-packages/Scrapy-0.22. 2-py2.7.egg/scrapy/core/downloader/handlers/s3.py”,第 4 行,从 .http 导入 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http.py”,第 5 行,从 .http11 导入 HTTP11DownloadHandler 作为 HTTPDownloadHandler
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/core/downloader/handlers/http11.py”,第 15 行,从 scrapy.xlib.tx 导入代理, ProxyAgent,ResponseDone,\
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/init .py ”,第 6 行,来自 . 导入客户端,端点
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/client.py”,第 37 行,从 .endpoints 导入 TCP4ClientEndpoint, SSL4ClientEndpoint
文件“/Library/Python/2.7/site-packages/Scrapy-0.22.2-py2.7.egg/scrapy/xlib/tx/endpoints.py”,第 222 行,在 interfaces.IProcessTransport,'_process')):
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/zope/interface/declarations.py”,第 495 行,调用 raise TypeError("Can't use implementer with classes。使用“类型错误之一
:不能将实现器与类一起使用。请改用类声明函数之一。
python - 如何使用 python 和 rdflib 从 rdf 转储中解压 dmoz url?
我试图打开 rdf 文件(dmoz rdf 转储),但收到此错误消息
我的简单代码如下:
- 我需要能够读取文件。
- 提取世界类别中的所有链接。
感谢任何可能的帮助
编辑:
PS:找到这个维基百科 rdf_dumps,所以开发自定义脚本是使用这个转储的必要条件
java - jar 文件加载失败“加载类失败”
我正在尝试使用此代码解析DMOZ文件。但是,在运行代码后,应用程序在开始时停止,产生以下异常:
如果 jar 设置为no-operation
,那么为什么他们在这段代码中使用它?(如果是这样,如果不是这样,那么)如何解决这个问题?
编辑
根据这个我添加了另一个罐子,现在还有另一个例外:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:146)
at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:59)
at dmozparser.DmozParser.main(DmozParser.java:339)
Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
at java.net.URLClassLoader$1.run(URLClassLoader.java:372)
at java.net.URLClassLoader$1.run(URLClassLoader.java:361)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:360)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 3 more
编辑 2
添加commons-logging-1.2.jar
,现在似乎有一个UnsupportedOperationException
:
Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@723279cf:java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl
java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl
at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(DocumentBuilderFactory.java:584)
at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:1131)
at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:1107)
at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:1053)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:420)
at org.apache.nutch.util.NutchConfiguration.setUUID(NutchConfiguration.java:41)
at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:60)
at dmozparser.DmozParser.main(DmozParser.java:339)
这似乎org.apache.xerces.jaxp.DocumentBuilderFactoryImpl
不受支持,但如何用合适的替换它?
python-2.7 - Scrapy dmoz 教程:_init_() 最多接受 2 个参数(给定 3 个)
PS C:\users\steve\tutorial> scrapy crawl dmoz
我的 dmoz spider python 脚本在这里