Cross Data Lake

O que é um Data Lake?

Data Lake é um conceito criado para descrever um repositório central de dados armazenados desde sua forma nativa até dados estruturados. A idéia desse repositório é que os dados estejam disponíveis a qualquer pessoa que precise fazer análises sobre eles com ferramentas de processamento em batch como Hadoop e Spark.

Os Data Lakes são projetados para o consumo de dados – o processo que envolve a coleta, importação e processamento de dados para armazenamento ou uso posterior. O Data Lake não requer que os usuários criem um esquema antes de preparar os dados para armazenamento, ou seja os dados podem ser simplesmente consumidos e o esquema aplicado quando os dados forem usados para análise.

Data Lakes não são substitutos para plataformas analíticas. Em vez disso, eles complementam os esforços existentes e apoiam a descoberta de novas perguntas sobre os dados. Uma vez que novas questões sobre os dados tenham sido descobertas, pode-se otimizar as respostas. Otimizar nesse caso, pode significar mover os dados para fora do Data Lake, em Data Marts ou Data Warehouses. O valor de negócio de um Data Lake é derivado das habilidades de ciência de dados que se pode aplicar sobre este dados.

Documentações

A página raiz LBRDG:Cross Data Lake não pode ser encontrado no espaço Linx bridge.

Atalhos

Árvore de páginas

O que é um Data Lake?