1

我即将开始编写一个程序,该程序将尝试从Google 代码站点提取数据,以便将其导入另一个项目管理站点。具体来说,我需要从站点中提取完整的问题详细信息(描述、评论等)。

不幸的是,谷歌没有为此提供 API,也没有导出功能,所以对我来说,唯一的选择似乎是从实际的 HTML 中提取数据(恶心)。有人对尝试从 HTML 中解析数据的“最佳实践”有任何建议吗?我知道这不太理想,但我认为我没有太多选择。其他人能想到更好的方法吗,或者其他人可能已经这样做了?

此外,我知道问题页面上的 CSV 导出功能,但这并没有提供有关问题的完整数据(但可能是一个有用的起点)。

4

1 回答 1

0

我刚刚完成了一个名为google-code-export的程序(托管在 Github 上)。这允许您将 Google 代码项目导出到 XML 文件,例如:

>main.py -p synergy-plus -s 1 -c 1
parse: http://code.google.com/p/synergy-plus/issues/detail?id=1
wrote: synergy-plus_google-code-export.xml

... 将创建一个名为synergy-plus_google-code-export.xml的文件。

于 2010-07-31T12:23:04.767 回答