好的,所以,我在标签之间获取一些文本,然后使用 file_get_html,现在,文本以不同的编码返回,这就是我所做的:
$name = $dom->find('h1');
$name = $name[0]->plaintext;
$name = html_entity_decode($name);
$name = utf8_decode($name);
html_entity_decode 确实删除了大部分垃圾,但我仍然收到诸如“-”之类的标志到它原来的'-'值?有什么快速解决办法吗?
我对编码不是很了解,任何帮助都非常感谢