对于翻译程序,我试图从 HTML 文件中获取 95% 准确的文本,以便翻译句子和链接。
例如:
<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>
应该给我 2 个翻译结果:
Overflow
Texts <b>go</b> here
有任何建议或商业软件包可用于此问题吗?
对于翻译程序,我试图从 HTML 文件中获取 95% 准确的文本,以便翻译句子和链接。
例如:
<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>
应该给我 2 个翻译结果:
Overflow
Texts <b>go</b> here
有任何建议或商业软件包可用于此问题吗?
我不确定你在问什么,但看看simplehtmldom。特别是该首页上快速启动下的“从 HTML 中提取内容”选项卡(无法直接链接,叹息)。有了它,您可以提取网站的文本,而无需所有那些讨厌的标签。