Descubra todas as frentes de decode

Desenvolvemos continuamente novas metodologias de coleta e análise de dados para compreender fluxos

Somo um laboratório multidisciplinar de pesquisa e inovação digital da Decode.

Uma abordagem ágil para construir um data lake

Share:

Entenda como acontece a construção de um data lake de forma eficiente e quais são os 4 estágios no desenvolvimento dessa importante infraestrutura de TI para a ciência de dados.


O data lake, como já explicamos por aqui, é um recurso essencial do trabalho com dados, por isso muitas empresas estão começando a explorar com mais atenção atualmente. Em especial, aquelas que possuem uma equipe de Data Ops mais amadurecida como parte do negócio.

A gestão eficiente de dados é uma prioridade para as empresas, não apenas pelo efeito dos insights nas tomadas de decisão, mas também como parte da gestão de ativos da empresa, principalmente quando falamos de grandes operações digitais, que coletam e armazenam alto volume de dados.

Data lakes representam importantes repositórios de dados corporativos estruturados e não estruturados, que funcionam como base para a fase de Preparação de Dados e também podem ser usados para o trabalho de Visualização dos dados.

Os dados em um data lake costumam ser armazenados em seu estado bruto. E a construção desse “espaço” de armazenamento é feita pelos engenheiros de dados, profissionais que normalmente desenvolvem e integram esse tipo de estrutura para permitir o trabalho do cientista de dados.

Os 4 estágios para construir um data lake de forma eficiente

Um ponto inicial muito importante desse tema é entender que faz sentido abordar a implementação do data lake numa perspectiva do método ágil. Em outras palavras, faz sentido configurar uma espécie de MVP (produto mínimo viável) do data lake.

Com ele, a equipe de Data Ops pode testar, para avaliar o esquema de armazenamento, os acessos e os processos analíticos que serão utilizados pelos cientistas de dados para realizar suas análises.

A maioria das empresas passa por pelo menos quatro estágios básicos de desenvolvimento e maturidade do data lake, de acordo com um estudo publicado pela McKinsey. Vamos apresentá-los de forma resumida (e menos técnica) para tornar esse passo a passo acessível para quem não está envolvido diretamente com engenharia de dados, mas deseja ficar por dentro do assunto.

1- Data Lake básico

Nesta primeira etapa, o time de engenheira de dados começa a programar a funcionalidade básica de armazenamento de dados. A equipe que trabalha na configuração do data lake deve fazer todas as escolhas principais em termos de ferramentas de armazenamento de dados ou uso de infraestrutura on premise ou em nuvem. Também é necessário estabelecer as práticas corretas de segurança digital e governança que serão incorporadas à infraestrutura.

Com o plano estabelecido, começa a construção de um data lake, que nesta etapa tem capacidade para:

  • Armazenar dados brutos vindos de diferentes fontes corporativas
  • Combinar dados de fontes internas e externas para fornecer informações enriquecidas

2- Sandbox

A etapa de Sandbox envolve a abertura do data lake para cientistas de dados. No entanto, essa abertura acontece em um ambiente de testes no qual as aplicações podem ser alteradas sem interferir no meio de produção, para a realização de experimentos preliminares sem perdas de dados.

Como a coleta e a aquisição de dados já foram feitas, os cientistas de dados podem se concentrar em encontrar maneiras inovadoras de colocar os dados brutos em uso. Eles podem trazer ferramentas analíticas comerciais ou de código aberto para criar bancos de teste necessários e trabalhar na criação de novos modelos analíticos alinhados a diferentes casos de uso de negócios.

3- Complemento para Data Warehouses

O terceiro estágio da implementação do data lake é quando as empresas o utilizam como complemento aos data warehouses já existentes. Enquanto os data warehouses se concentram na extração de alta intensidade de bancos de dados relacionais, a extração de baixa intensidade e os dados frios ou raramente usados são movidos para os data lakes.

É isso garante que os data warehouses não excedam os limites de armazenamento, enquanto os conjuntos de dados de baixa prioridade ainda são armazenados. O data lake oferece uma oportunidade de gerar insights a partir desses dados ou consultá-los para encontrar informações não indexadas por bancos de dados tradicionais.

4- Direcionar a Operação de Dados

O último estágio é quando o data lake se torna parte importante da arquitetura de dados da empresa e meio que direciona as operações de dados. Nesta etapa, o data lake substitui outros bancos de dados e data warehouses, e agora representa a fonte de dados principal da empresa.

O data lake agora permite que a empresa:

  • Crie programas de análise de dados complexos que atendem a vários casos de uso de negócios
  • Crie interfaces de painel que combinam percepções do data lake, bem como de outros aplicativos ou fontes
  • Implante análises avançadas ou algoritmos de aprendizado de máquina, pois o data lake gerencia tarefas de computação intensiva

Esse estágio também significa que a empresa implementou fortes medidas de segurança digital e governança para manter o data lake funcionando plenamente.

Se você chegou até aqui e tem interesse em saber mais sobre os usos e vantagens de trabalhar com um data lake, leia também: