我正在从一个数据库解析数据,其中大部分文本已从 Word 粘贴到另一个数据库中,这是一场真正的噩梦。每天都需要通过解析器清洗数据,因此这不仅仅是清理源数据一次的问题。
问题是目标在处理过程中不断移动,我得到的结果很复杂。
该过程基本上是复制从 PHPMyAdmin 生成的导出 SQL;将其粘贴到表单中,然后运行解析脚本;然后脚本将“清理”的数据保存到不同的数据库中。
数据中的样本包括...
Comply with “Regulations�
理想情况下,这将是……
Comply with "Regulations"
当所有的解析完成并存储在我剩下的新数据库中时......
Comply with AS3868 â€Å"Regulationsâ€Â
还有其他 Word 字符,例如省略号等,但此示例仅显示智能引号。
一旦通过表单发布数据,对我来说清理数据的最佳方式是什么?