2

我正在尝试建立一个翻译工具来翻译网站。我想做的是html-code从该站点导入并获取所有可翻译的文本。

一个想法是使用strip_tags,但它会忽略可以翻译的字符串,例如替代文本、标题文本以及可能我还没有想到的其他字符串。有没有一种干净的方法可以做到这一点?

4

2 回答 2

1

我个人会使用 Symfony2 的DOM Crowler 组件,它是一个很好的 php DOM 函数包装器,并从那里开始。

于 2013-01-23T09:18:56.343 回答
1

在这种情况下,您需要自己解析 HTML 并提取文本。正如您可能已经知道的那样,使用正则表达式解析 HTML 是一个坏主意 (tm)。所以,唯一正确的解决方案是解析文档的 DOM。在此步骤中,您可以自由使用任何工具,包括标准DOMDocument类。

如果您正在寻找一些库或脚本来提供帮助,我建议您查看可用于商业用途的html2text 。如我所见,它不支持<img>标签的属性,但很容易修复(以<a>标签为例)。

如果您正在寻找一些自动文本提取,那么您绝对应该看看Bolierpipe 之类的东西。

于 2013-01-23T09:46:40.590 回答