Descubra todas as frentes de decode

Desenvolvemos continuamente novas metodologias de coleta e análise de dados para compreender fluxos

Somo um laboratório multidisciplinar de pesquisa e inovação digital da Decode.

Data lake: o que é, do que se alimenta e como fizemos o nosso

Share:

Para que possamos implementar uma arquitetura automatizada e disponibilizar todos os dados em um só lugar, a tarefa mais desafiadora é entender quais tecnologias devem ser utilizadas


Cada vez mais as empresas estão tomando medidas estratégicas decisivas para seu crescimento baseadas em dados. Por isso, ter acesso aos dados de maneira rápida, segura e simplificada tem se tornado muito importante. Para operacionalizar esse acesso, as empresas procuram por profissionais que possam automatizar seus processos com tecnologias que atendam suas necessidades de forma barata e que possam suportar uma grande quantidade de informação.

Mas, de onde vem os dados?

Essa é uma pergunta recorrente para quem começa a se interessar pelo tema. De forma geral, as informações ficam armazenadas no que chamamos de data lake — um repositório para armazenar dados em qualquer formato, de maneira centralizada e possibilitando o processamento de uma grande quantidade de maneira massiva.

Além do data lake, duas outras frentes são de extrema importância: o big data e a computação em nuvem. De maneira resumida, big data é a ciência que estuda como processar, tratar e analisar uma grande quantidade de dados. Já a computação em nuvem vem para atender a necessidade de armazenamento destes dados de forma escalável em um ambiente virtual, sem que precisemos da instalação de programas e de uma infraestrutura física para essa mesma função. Juntos, big data e computação em nuvem atuam para que seja possível trabalhar com as informações que estão em um data lake.

Qual é o desafio?

Para que possamos implementar uma arquitetura automatizada e disponibilizar todos os dados em um só lugar, a tarefa mais desafiadora é entender quais tecnologias devem ser utilizadas. A solução precisa atender as necessidades do negócio além de disponibilizar os dados para o usuário de forma intuitiva.

É aí que entra a computação em nuvem. Porém, quando se fala nesse tipo de solução, precisamos observar alguns aspectos. De um lado, o armazenamento de dados na nuvem acontece em um servidor externo, evitando dispositivos físicos. Ele permite que você acesse dados e arquivos de maneira offline, de qualquer lugar e ainda traz escalabilidade.

Do outro lado, esse tipo de solução tem custo alto, sendo necessária uma boa velocidade da internet e uma estrutura forte de cyber-segurança.

Na minha jornada de engenheiro de dados, sempre tive a oportunidade de desenvolver automatizações em nuvem. E, se colocarmos na balança os prós e os contras, acredito que a nuvem sempre será uma boa opção. Basta pensar na facilidade de acesso aos dados, na concentração dos processos em um só lugar, da não necessidade de manutenção de dispositivos físicos e de um espaço físico para armazenar os computadores, além da maior escalabilidade dos serviços.

As desvantagens podem ser contornadas com um bom planejamento, a elaboração de uma arquitetura adequada, velocidade da internet suficientemente boa e um desenvolvimento de processos que possa barrar ataques cibernéticos.

Na Decode, fizemos um compilado de informações para a construção da arquitetura de um data lake. Assim, chegamos em uma solução que permite nos esquivarmos das desvantagens e contribuir na manutenção dos processos de acordo com o conhecimento da equipe.

A computação em nuvem ajudou na acessibilidade dos dados, a desenvolver novas soluções e a concentrar informação em único lugar, sem a necessidade da infraestrutura física. Conseguimos construir um data lake utilizando as tecnologias próprias da nuvem que atendessem qualquer tipo de processo de automatização de forma padronizada — como se fosse um motor.

Nosso data lake foi desenvolvido para que o usuário ou o desenvolvedor não precise entrar no detalhe da linguagem de programação e possa apenas modificar um arquivo de configuração pré-definido, facilitando o trabalho operacional, diminuindo a complexidade da manutenção dos processos. Essa foi a maneira que encontramos para centralizar e processar os dados de uma maneira que facilite a manutenção do usuário.

Percebemos que esse processo de criação de data lake dentro de uma nuvem facilitou o desenvolvimento dos processos e a concentração dos dados já que a nuvem oferece recursos e serviços que facilitam a manutenção operacional. Assim, não precisamos nos preocupar com a capacidade de armazenamento. E, apesar de ser um desafio montar um data lake do zero, esse modelo traz benefícios para as companhias por facilitar o acesso à informação para o analista e assim facilitar a tomada de decisões estratégicas das empresas através dos dados.

Autor:
Rodrigo Yuji Horikawa é Data Engineer na Decode