php - 使用 php 从网站/html页面获取所有可翻译文本

Question

我正在尝试建立一个翻译工具来翻译网站。我想做的是html-code从该站点导入并获取所有可翻译的文本。

一个想法是使用strip_tags，但它会忽略可以翻译的字符串，例如替代文本、标题文本以及可能我还没有想到的其他字符串。有没有一种干净的方法可以做到这一点？

score 1 · Accepted Answer

我个人会使用 Symfony2 的DOM Crowler 组件，它是一个很好的 php DOM 函数包装器，并从那里开始。

score 1 · Accepted Answer

在这种情况下，您需要自己解析 HTML 并提取文本。正如您可能已经知道的那样，使用正则表达式解析 HTML 是一个坏主意 (tm)。所以，唯一正确的解决方案是解析文档的 DOM。在此步骤中，您可以自由使用任何工具，包括标准DOMDocument类。

如果您正在寻找一些库或脚本来提供帮助，我建议您查看可用于商业用途的html2text 。如我所见，它不支持<img>标签的属性，但很容易修复（以<a>标签为例）。

如果您正在寻找一些自动文本提取，那么您绝对应该看看Bolierpipe 之类的东西。

2 回答 2