我刚刚开始了从我们的数据库中删除 HTML 实体的任务,因为我们做了很多爬虫,而一些爬虫在输入时没有这样做:(
所以我开始写一堆看起来像的查询;
UPDATE nodes SET name=regexp_replace(name, 'à', 'à', 'g') WHERE name LIKE '%#xe0%';
UPDATE nodes SET name=regexp_replace(name, 'á', 'á', 'g') WHERE name LIKE '%#xe1%';
UPDATE nodes SET name=regexp_replace(name, 'â', 'â', 'g') WHERE name LIKE '%#xe2%';
这显然是一种非常幼稚的方法。我一直在试图弄清楚解码功能是否可以做一些聪明的事情;也许通过 regex like 抓取 html 实体/&#x(..);/
,然后仅将%1
部分传递给 ascii 解码器,并重建字符串......或其他东西......
我应该继续查询吗?大概只有40个左右。