我即将开始编写一个程序,该程序将尝试从Google 代码站点提取数据,以便将其导入另一个项目管理站点。具体来说,我需要从站点中提取完整的问题详细信息(描述、评论等)。
不幸的是,谷歌没有为此提供 API,也没有导出功能,所以对我来说,唯一的选择似乎是从实际的 HTML 中提取数据(恶心)。有人对尝试从 HTML 中解析数据的“最佳实践”有任何建议吗?我知道这不太理想,但我认为我没有太多选择。其他人能想到更好的方法吗,或者其他人可能已经这样做了?
此外,我知道问题页面上的 CSV 导出功能,但这并没有提供有关问题的完整数据(但可能是一个有用的起点)。