Cleiton MouraA necessidade de um code style guide para PySparkTransformações de dados e modelos rodando em produção estendem a ciência de dados ao reino da engenharia de “software” através das…Feb 15, 20221Feb 15, 20221
Cleiton MouraConceitos Essenciais do SparkNo artigo de hoje, último dos artigos somente conceituais de Spark, falaremos sobre os conceitos essenciais do Spark, conhecimento…Feb 11, 2022Feb 11, 2022
Cleiton MouraComo obter a contagem de todos os valores NaN ou Nulos de um DataFrame no SparkEm processos de limpeza de dados, é comum se deparar com valores nulos e ter que identificar esses valores coluna por coluna pode ser uma…Jan 19, 2022Jan 19, 2022
Cleiton MouraComo aumentar a velocidade dos unions no HiveA dica de hoje é algo extremamente simples e que pode aumentar (e muito) o desempenho das suas querys que utilizam tanto UNION ALL ou o…Jan 12, 2022Jan 12, 2022
Cleiton MouraComo melhorar a performance dos seus joins no Hive com StreamTable e MapJoinApesar de atualmente termos engines de processamento em memória mais performáticos que o Hive com seu mapreduce, ter que optimizar querys…Jan 11, 2022Jan 11, 2022