Como aumentar a velocidade dos unions no Hive
A dica de hoje é algo extremamente simples e que pode aumentar (e muito) o desempenho das suas querys que utilizam tanto UNION ALL ou o UNION(em versões mais recentes).
Quando você executa uma query com union cada instrução SELECT é executado de forma sequencial, ou seja, quanto mais unions você tiver, maior será o tempo de execução daquela query. Isto pode ser contornado utilizando paralelismo setando a seguinte configuração no seu hive:
set hive.exec.parallel = true;
Desta forma, os SELECT serão executados ao mesmo tempo de forma paralela e ao final das execuções será realizado a operação de union dos dados.
Observação: O uso deste parâmetro pode aumentar substancialmente o uso de recursos do cluster, então use com sabedoria e moderação.