9

是否有以编程方式访问Java 文档的 api ?类似于 Eclipse 等编辑器/IDE 为 IntelliSense 所做的事情。当然,javadoc 生成的 html 可以被解析和索引,但如果知道某些东西是否已经作为独立包存在,那就太好了。

更新:为了清楚起见,我正在尝试以编程方式访问 Java 语言实现的文档。但是,没有简单的出路,但您必须从 Oracle 的站点获取 openjdk,然后执行make docs并提供一些 doclet 以获取非 html 形式的输出。这是我从一开始就试图避免的。所以我现在正在阅读所有的 Makefile,试图弄清楚为什么 $PLATFORM 没有被解析并且源代码构建失败!

我最终解决的问题:

抓取 html 文档。是的。意识到那会完成我的工作。

import urllib2
import pymongo

mongo = pymongo.Connection('localhost')
mongo_db = mongo['api_db']
mongo_collection = mongo_db['api_collection']

URL='''http://docs.oracle.com/javase/6/docs/api/index-files/index-'''
URL_range = 27+1

def getPageElements(url):
    content=urllib2.urlopen(url).read()
    from BeautifulSoup import BeautifulSoup
    soup = BeautifulSoup(content)
    elements = soup('dl')
    return elements


def savePageElements(elements):
    for i in elements[0]:
            try:
                    entry={'type_description':str(i.findNext('dt')).split('-')[1].split('<')[0]\
                                    +i.findNext('a').findNext('a').renderContents(),\
                                    'signature':i.findNext('a').findNext('a').renderContents()+i.findNext('b').renderContents(),\
                                    'description': i.findNext('dd').renderContents()\
                            }   
                    print entry
                    insert_id = mongo_collection.save(entry)
            except:
                    pass


def retrieve(str):
     mongo_documents = mongo_collection.find({
    'signature': str,
    #'type_description':"Method of java.io.PrintStream"
    })  
    for this_document in mongo_documents:
        print this_document


if __name__=="__main__":
    for i in range(1,URL_range):
            #url=URL+str(i)+".html"
            #print "Processing:", url
            #elements=getPageElements(url)
            #print elements[0]
            #savePageElements(elements)
            retrieve("println(String)")

但是看看dexy。如果我能够在 Ubuntu 上毫无问题地构建 OpenJDK - 它会生成很好的 JSON 来玩。

4

3 回答 3

2

在您编写 Eclipse 时,它​​会解析 javadoc 并且做得很好。它似乎是在3.2M4中引入的。您可能能够从 Eclipse 源代码中提取功能,向 Eclipse 社区检查入口点可能是一个不错的起点。

如果这不起作用,我想您的起点将是一个普通的 HTML 解析器。

于 2012-10-12T23:46:11.067 回答
1

javadoc 工具从 Java 文件中解析信息并委托给doclet以将此结构化信息转换为文档。标准 doclet 生成熟悉的 HTML 输出,但您可以编写自己的并告诉 javadoc 使用它。如果您有可用的原始源代码,这可能是最可靠的选择。

于 2012-10-14T15:39:23.173 回答
0
  • 您可以使用 JavaDoc 工具的输出并将其解析为 XML,如本例所示
  • 您还可以使用其他文档提取工具,例如Doxygen并解析它们(更好的)XML 输出。
  • 当您具备基本的解析器知识时,您可以自己编写一个 JavaDoc-extractor。有很多免费的 Java 解析器是一个很好的起点。(我认为这将是您研究原型的最佳方式)。
于 2012-10-14T13:50:31.070 回答