0

嘿,我创建了一个爬虫来爬取 PDF 文档并将文档中的每个单词记录到 MySQL 数据库中的表中。

显然,像“the”、“and”、“or”等词在书中多次出现。

我只是想知道从表中删除重复值的最快方法是什么?

4

5 回答 5

3

创建一个不为单词编制索引的表,并使用大量插入插入书中的所有单词(您也可以使用 LOAD DATA)。完成插入后,在word字段上添加一个新索引

然后使用以下命令创建第二个表:

CREATE TABLE newTable SELECT DISTINCT word FROM oldTable
于 2009-09-30T11:47:08.573 回答
1

您可以确保没有重复项进入表格,而不是删除重复项。

假设您的表只有 2 个字段,id 和 word:

INSERT INTO table SELECT null, 'word' FROM table WHERE NOT EXISTS (SELECT * FROM table WHERE word = 'word') LIMIT 1;

仅当单词尚未在表中时,这才会将单词插入表中

于 2009-09-30T11:41:08.953 回答
1

如果您可以重新运行脚本来填充数据库,您可以在“word”字段上添加一个唯一键,而不是 INSERT INTO 执行 REPLACE INTO。这将在添加重复字段之前删除记录的先前实例。这可能不是最有效的方法,但它相当简单。有关更多详细信息,请参见此处:

http://dev.mysql.com/doc/refman/5.0/en/replace.html

于 2009-09-30T12:28:40.543 回答
0
delete from words where idcolumn not in
  (select min(idcolumn) 
   from words T2 
   where T2.plain = WordsTable.plain)

如果您(idcolumn, plain)为找到的每个单词添加,这将有效。

如果您没有 id 列 (pk),那么您可以使用 Anax 的解决方案。

除了不插入重复项(codeburger 注释)外,您还可以在普通列上设置唯一索引。

于 2009-09-30T11:32:19.110 回答
0

在 word 字段中选择 distinct,然后删除所有具有不同 id 的行?我不是子查询的大师,所以没有示例 atm :)

于 2009-09-30T11:33:34.157 回答