Comandos Úteis Spark

Ano passado iniciei minha carreira como Engenheiro de Dados. Utilizando a nuvem da Azure nos primeiros projetos, tive contato com o Azure Databricks, e acabei utilizando alguns comandos em PySpark ou SparkSQL para facilitar a minha vida na análise de algumas tabelas e ingestões.

Nesse post vou ir colocando alguns desses comandos, para guardar para a posteridade, e servir como consulta posterior.

Comandos:

-- Selecionar versões das tabelas delta, podendo filtrar por qualquer campo
select * from (describe history table_name)
where operation like '%CREATE%'