Introdução

O processo Bronze é a primeira etapa de ingestão de dados brutos em um datalake. Nesta fase, os dados são coletados, armazenados e organizados para preparação posterior nos níveis Silver e Gold.

Processo Bronze

1. Coleta de Dados

  • Os dados brutos são coletados de fontes, como APIs e arquivos XML.
  • Esses dados não passam por nenhum processamento significativo nessa fase.

2. Armazenamento

  • Os dados brutos são armazenados no datalake.
  • O datalake pode ser implementado usando serviços como Amazon S3, Hadoop HDFS ou Azure Data Lake Storage.

3. Organização

  • Os dados são organizados em diretórios ou pastas no S3 - AWS.
  • A estrutura de diretórios estão divididos em metadados respeitando a governança especifica.

4. Metadados

  • Metadados incluem informações como data de ingestão, origem, formato, tamanho etc.

5. Segurança

  • Controle de acesso baseado em papéis (IAM) e criptografia são essenciais.

Benefícios do Processo Bronze

  • Armazenamento centralizado de dados brutos.
  • Preservação da integridade dos dados originais.
  • Preparação para processamento posterior nos níveis Silver e Gold.


Conclusão

O processo Bronze é fundamental para a construção de um datalake eficiente e escalável. Ele serve como a base para análises futuras e processamento de dados mais avançado. Lembre-se de adaptar essa documentação ao seu ambiente específico e adicionar exemplos relevantes.


Processos relacionados

para visualizar todos os processos clique aqui

Bucket no s3   clique aqui


  • Sem rótulos