0

我正在做一个项目,在这个项目中,我们为另一个国家(不是说英语的国家)设计一个现有网站的本地化版本(用英语编写)。业务要求是“所有可能和不可能的情况都没有英文文本”。

有谁知道是否有一个检查软件/服务可以检查一个网站是否已完全翻译,即检查其中没有英文文本。

我知道有一些网站可以检查损坏的链接、html 有效性等,我需要类似http://validator.w3.org/checklink的东西,但要检查网站的所有页面上是否没有英文文本。

我认为需要这种方式的原因是:
1. 所有国家/地区都有很多通用代码(后端和前端)
2. 如果有人向通用代码提交任何内容,我需要确保这不会导致本地化版本出现英文文本问题。
3. 从业务角度来看,网站最好不支持某些功能,而不是显示英文文本(法律问题)
4. 前端和后端的代码变化很大
5. 有很多影响文本的文件在客户端的屏幕上。不幸的是,不仅仅是一个带有消息的消息。并且一些消息来自后端,但大部分都在前端
6. 由于所有这些事实,目前有人手动填写所有表格并亲眼观看,那就是在每次部署之前......

4

2 回答 2

1

如果你想走爬虫的路,我不知道现有的爬虫可以做到这一点,但这听起来像是两个简单问题的结合:

  1. 为网络爬虫查找现有的开源代码应该非常简单
  2. 如果文本可以使用的语言数量有限,那么通过 n-gram 分析识别语言是微不足道的。

唯一困难的部分是确保分析器始终有大量文本可供使用。您可以逐段提取内容。对于表单,您可能必须组合多个表单标签的文本。

于 2013-02-22T17:53:14.767 回答
1

我认为您从错误的方向解决问题。您正在寻找可以检测任何文本是否为英文的算法或网络爬虫?我不知道,但我怀疑这样的事情是否存在。

如果您已经翻译了网站,您就可以完全访问代码库和/或翻译文本,对吗?您不能在 Notepad++ 之类的比较工具中同时打开英文和非英文字符串文件(.resx 或您正在使用的任何文件)来检查差异以查看是否缺少任何字符串?并检查源代码并验证所有可以输出用户可显示文本的部分是否使用 meta:resourceKey 属性(或您正在使用的任何内容)。

于 2013-01-12T20:42:37.093 回答