我将是第一个承认我不是世界上最聪明的人的人,但我对此感到茫然。
我想访问英语维基词典项目的每个单词的单词和详细信息。我看到他们做数据转储,很兴奋。这持续了整整3秒。从那以后,我所做的只是在沮丧和恼怒中咒骂和抽烟。
我正在使用 Windows 7。
我已经安装了最新版本的 xampp(64 位,安装在根目录下)。
我已经安装了最新的 Java DK。
我已将 Xampp 和 JDK 设置为以管理员身份运行。
我已经抓住了文章页面文件。
我已经解压了它们。
我使用了 mwxml2sql 工具。
我无法让它运行(无论我尝试了什么设置/标志)。
我使用了 mwxml2sql 工具的 GUI 版本。
它运行了 - 然后在 4300 行出现错误。
错误是关于 name_title 中的双键。
我看过 wikokit - 但这似乎落后了几年。
我不知所措。
我查看了在重复密钥错误之前确实进入数据库的数据。
我可以看到一些 Blob 格式的数据。
我如何通过 php 访问该信息?
没有一个像样的(如“白痴”:D)指南吗?
我真的必须获取所有文件、安装 wiki、解析文件吗?
我打算如何处理重复密钥问题(不像我可以打开 sql 文件并找到相关行!)?
所以,拜托 - 有没有人这样做或知道如何做到这一点?
我唯一能想到的就是实际尝试抓取该站点-我宁愿不这样做(维基小组也不会这样做)。
如果它是相关的——我特别关注单词形式、PoS、发音、定义、任何短语和相关单词。诸如词源等之类的东西会很好,但并不那么重要。
如果有人建议,是的,我查看了 WordNet(设法找到了一个 mysql 转储,并且可以正常工作)。我还看到了 MRC 和 CMU dict 之类的资源——但没有一个拥有正确的权限。这就是为什么维基词典看起来如此吸引人的原因。但似乎格式/转储远非友好:(
那么,有什么帮助或想法吗?替代来源、指南、演练……都会有所帮助。
或者,如果你能告诉我是什么导致了错误以及如何解决它,以及如何访问单词数据,那就太好了。
你的真诚 - 沮丧。