Introdução
O processo Bronze é a primeira etapa de ingestão de dados brutos em um datalake. Nesta fase, os dados são coletados, armazenados e organizados para preparação posterior nos níveis Silver e Gold.
Processo Bronze
1. Coleta de Dados
- Os dados brutos são coletados de fontes, como APIs e arquivos XML.
- Esses dados não passam por nenhum processamento significativo nessa fase.
2. Armazenamento
- Os dados brutos são armazenados no datalake.
- O datalake pode ser implementado usando serviços como Amazon S3, Hadoop HDFS ou Azure Data Lake Storage.
3. Organização
- Os dados são organizados em diretórios ou pastas no S3 - AWS.
- A estrutura de diretórios estão divididos em metadados respeitando a governança especifica.
4. Metadados
- Metadados incluem informações como data de ingestão, origem, formato, tamanho etc.
5. Segurança
- Controle de acesso baseado em papéis (IAM) e criptografia são essenciais.
Benefícios do Processo Bronze
- Armazenamento centralizado de dados brutos.
- Preservação da integridade dos dados originais.
- Preparação para processamento posterior nos níveis Silver e Gold.
Conclusão
O processo Bronze é fundamental para a construção de um datalake eficiente e escalável. Ele serve como a base para análises futuras e processamento de dados mais avançado. Lembre-se de adaptar essa documentação ao seu ambiente específico e adicionar exemplos relevantes.
Processos relacionados
para visualizar todos os processos clique aqui
Bucket no s3 clique aqui