我正在处理一个数据库(2.5 GB),有些表只有 40 行,有些表有 900 万行数据。当我对大表进行任何查询时,它需要更多时间。我希望在更短的时间内获得结果
对只有 90 行的表的小查询-->
hive> select count(*) from cidade;
Time taken: 50.172 seconds
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.block.size</name>
<value>131072</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
这些设置会影响配置单元的性能吗?
dfs.replication=3
dfs.block.size=131072
我可以将它从蜂巢提示设置为
hive>set dfs.replication=5
这个值是否只保留在特定的会话中?
还是在 .xml 文件中更改它更好?