我正在做一个小项目,我需要一些帮助。我有一个包含 150,000 行的 CSV 文件(每行有 10 列数据)。我正在使用 fscvread 读取文件,并且在循环期间,我想将每行的其中一列(称为 stringx)与 10,000 个单词的数组进行匹配。如果 stringx 中存在 10,000 个单词中的任何一个,则使用 preg_replace 将其删除。
现在这一切都很好。我的一切工作正常,但问题是,它太慢了。
我尝试了 2 种方法来匹配数组。1)我使用explode(“”,$stringx)将stringx转换为数组,然后使用array_diff($array_stringx,$array_10000);2) 在 $array_10000 上使用 foreach 并在 $stringx 上使用 preg_replace
方法 1 大约需要 60 秒来遍历 200 行数据,方法 2 可以在 60 秒内循环 500 行。
有一个更好的方法吗?
再一次,我正在寻找一种有效的方法来(基本上)array_diff 一个包含 10,000 个单词的数组,一次针对 150,000 个字符串。
非常感谢您的帮助。