Como aumentar a velocidade dos unions no Hive

Cleiton Moura
Jan 12, 2022

--

Photo by Shelby Cohron on Unsplash

A dica de hoje é algo extremamente simples e que pode aumentar (e muito) o desempenho das suas querys que utilizam tanto UNION ALL ou o UNION(em versões mais recentes).

Quando você executa uma query com union cada instrução SELECT é executado de forma sequencial, ou seja, quanto mais unions você tiver, maior será o tempo de execução daquela query. Isto pode ser contornado utilizando paralelismo setando a seguinte configuração no seu hive:

set hive.exec.parallel = true;

Desta forma, os SELECT serão executados ao mesmo tempo de forma paralela e ao final das execuções será realizado a operação de union dos dados.

Observação: O uso deste parâmetro pode aumentar substancialmente o uso de recursos do cluster, então use com sabedoria e moderação.

--

--

Cleiton Moura

Engenheiro de dados. Formado Técnico em Programação de Computadores e graduando na Fatec. Possui experiência em diversos setores.