web-services - 一种检查网站本地版本是否已完全翻译的工具（用于持续集成）

Question

我正在做一个项目，在这个项目中，我们为另一个国家（不是说英语的国家）设计一个现有网站的本地化版本（用英语编写）。业务要求是“所有可能和不可能的情况都没有英文文本”。

有谁知道是否有一个检查软件/服务可以检查一个网站是否已完全翻译，即检查其中没有英文文本。

我知道有一些网站可以检查损坏的链接、html 有效性等，我需要类似http://validator.w3.org/checklink的东西，但要检查网站的所有页面上是否没有英文文本。

我认为需要这种方式的原因是：
1. 所有国家/地区都有很多通用代码（后端和前端）
2. 如果有人向通用代码提交任何内容，我需要确保这不会导致本地化版本出现英文文本问题。
3. 从业务角度来看，网站最好不支持某些功能，而不是显示英文文本（法律问题）
4. 前端和后端的代码变化很大
5. 有很多影响文本的文件在客户端的屏幕上。不幸的是，不仅仅是一个带有消息的消息。并且一些消息来自后端，但大部分都在前端
6. 由于所有这些事实，目前有人手动填写所有表格并亲眼观看，那就是在每次部署之前......

score 1 · Accepted Answer

如果你想走爬虫的路，我不知道现有的爬虫可以做到这一点，但这听起来像是两个简单问题的结合：

为网络爬虫查找现有的开源代码应该非常简单
如果文本可以使用的语言数量有限，那么通过 n-gram 分析识别语言是微不足道的。

唯一困难的部分是确保分析器始终有大量文本可供使用。您可以逐段提取内容。对于表单，您可能必须组合多个表单标签的文本。

score 1 · Accepted Answer

我认为您从错误的方向解决问题。您正在寻找可以检测任何文本是否为英文的算法或网络爬虫？我不知道，但我怀疑这样的事情是否存在。

如果您已经翻译了网站，您就可以完全访问代码库和/或翻译文本，对吗？您不能在 Notepad++ 之类的比较工具中同时打开英文和非英文字符串文件（.resx 或您正在使用的任何文件）来检查差异以查看是否缺少任何字符串？并检查源代码并验证所有可以输出用户可显示文本的部分是否使用 meta:resourceKey 属性（或您正在使用的任何内容）。

web-services - 一种检查网站本地版本是否已完全翻译的工具（用于持续集成）

2 回答 2

Related

Reference