mysql - 如何从 Solr 的数据导入器中迭代查询大型 MySQL 数据集？

Question

我的生产数据库中有 256 个表。每个表大约有 10,000,000 行——我无法在一次SELECT查询中从任何一个表中获取所有行。

实际上，我将查询阶段放在 solr/conf/data-config.xml 中，就像这样作为测试；它有一张桌子，我正在选择所有行。

我使用 Solr（基于 Java）。我像这样触发数据的索引：

curl --max-time 36000 -i localhost:portNum/solr/dataimport?command=full-import

这是 XML 中的内容：

<entity name="file" query="SELECT *, LOWER(REPLACE(sw_name, ' ', '')) packed_sw_name, CAST(group_id as char) group_id_s FROM tblTmp1"/>

但是现在，我想获取用于数据导入的表号（tblNum）的参数并迭代地选择 id 范围之间的行——使用美元符号变量替换，查询将如下所示：

<entity name="file" query="SELECT *, LOWER(REPLACE(sw_name, ' ', '')) packed_sw_name, CAST(group_id as char) group_id_s FROM tblTmp1_$tblNum where id >=$startSn and id<$endSn" />

如何迭代地查询数据库，我应该在哪个文件中设置它？

score 0 · Accepted Answer

如果您想添加这种逻辑，我不知道这是否是编写 SQL 查询的最佳位置。

如果您确实按照配置使用导入器，您将需要使用游标在循环中进行选择——将结果放入 Solr 的临时表中。我不知道它是如何使用 MySQL 语法的，但我记得它与其他 SQL 方言相似（但不相同）——这是 PostgreSQL 的 PL/PgSQL 语言中的游标查询示例：

CREATE FUNCTION urge_to_merge( ) RETURNS INTEGER AS '

    DECLARE 
        pacman              CURSOR FOR SELECT * FROM forsale_fsuserprofileimage;
        pellet              forsale_fsuserprofileimage%ROWTYPE;



    BEGIN 

        OPEN pacman;
        LOOP
            FETCH pacman INTO pellet;
            EXIT WHEN NOT FOUND;

            UPDATE forsale_fsuserprofile 
            SET 
                image = pellet.image,
                w = pellet.w,
                h = pellet.h
            WHERE 
                id = pellet.userprofile_id;

        END LOOP;

        RETURN( 1 );

    END;


' LANGUAGE 'plpgsql';

我建议放弃 Solr 股票数据导入器并编写一个简单的 CLI 程序——这样，您可以控制何时执行查询。您可以用 Java 编写它，但您不必这样做；使用 Solr 的 HTTP API，您可以使用任何其他语言，只要它可以发出 HTTP 请求和 MySQL API 调用：Python、Ruby、带有 curl 的 bash 脚本，甚至 PHP-CLI，如果那是您的东西。

许多语言已经绑定到 Solr 的 HTTP API，您可以开箱即用地使用（我可以保证 Python 和 Ruby 在这方面），但这里有一篇文章，其中包含自己使用 API 是多么容易的示例：https： //lucene.apache.org/solr/guide/7_7/searching.html#searching

mysql - 如何从 Solr 的数据导入器中迭代查询大型 MySQL 数据集？

1 回答 1

Related

Reference