Artigo | 6 min read

Data Warehouse e Data Lake: aprenda como melhorar o gerenciamento de dados da sua empresa

Por Douglas da Silva, Web Content & SEO Associate, LATAM

Última atualização em 26 Mai 2021

Com a transformação digital, muitos processos foram reestruturados em empresas, e a gestão estratégica das organizações passou a ser reforçada por diversos sistemas automatizados. Dentre todos esses sistemas, o data warehouse e data lake se destacam como tecnologias eficientes na lida com o grande número de dados. 

Pequenos empresários viram seus negócios ganhando grandes proporções depois de passarem a realizar vendas online, mas com o aumento das vendas, esses negócios se viram tendo de cuidar de um turbilhão de dados. 

No Brasil, com a aprovação da Lei Geral de Proteção de Dados Pessoais, que passou a vigorar em setembro de 2020, a regulação de responsabilidade pelo tratamento, privacidade, transparência e proteção dos dados tornou a utilização dessas informações mais segura.

Ter ferramentas que ajudam a controlar o crescimento do mercado, principalmente através da tecnologia, potencializa a adaptação dos negócios às mudanças, e mantém seguras todas as informações. 

Pensando nisso, preparamos esse conteúdo para que você possa entender o que é o data warehouse e data lake, e como essas ferramentas podem te ajudar a gerenciar e analisar os dados da sua empresa de forma segura.

Para aprender mais sobre transformação digital, leia nosso conteúdo: O impacto da transformação digital: principais desafios e tendências das organizações.

Boa leitura!

A revolução dos dados

Por muitos séculos a disseminação do conhecimento era limitada, e muitas informações eram repassadas apenas para pequena parte da população. 

Com a transformação digital, uma revolução de conhecimento democratizou o conhecimento, e todas as pessoas passaram a divulgar e ter acesso a uma infinidade de informações.

Separadamente, todas essas informações são apenas códigos, ou melhor, dados, e com tanto fluxo de códigos nas redes se criou uma grande revolução de dados.

Durante esse processo de inovação, gestão, conhecimento e competitividade, um fenômeno chamado Big Data surgiu. 

O Big Data nada mais é do que todo o conjunto de dados disponíveis na rede. Uma infinidade de informações variadas, com as quais temos que lidar todos os dias.

Mas e quando o assunto são negócios, como uma empresa lida com tantos dados? É aí que entra o Business Intelligence.

Business Intelligence e o processo de ELT

O Business Intelligence (BI), que significa literalmente Inteligência de Negócio, consiste no conjunto de ferramentas e métodos que auxiliam uma empresa a transformar simples dados em informações relevantes para seus negócios.

Imagine milhares de dados aleatórios que precisam ser analisados. Agora imagine precisar de milhares de pessoas para analisar esses dados. Isso tornaria o processo de análise caríssimo e demorado. 

O que é ETL?

Dentro do BI, existe um processo chamado ETL, mas o que é ETL? Abreviação para Extração, Transformação e Carga, um dos processos mais importantes de BI, que trabalha toda a parte de extração de dados de fontes externas.

Não é nenhum exagero dizer que sem o ETL, não existiria o BI, pois ele é fundamental para alinhar ferramentas como o Data Warehouse e Data Lake nos processos gerenciais de dados de uma empresa, e é sobre essas ferramentas que falaremos a seguir.

O que é Data Warehouse?

O Data Warehouse (DW) é um armazém de dados, onde todos os dados ficam organizados por categorias, tornando o DW um banco de dados relacional, capaz de guardar dados estruturados.

As informações são organizadas em conjuntos, separando por exemplo, dados ligados ao RH, financeiros, vendas, etc, e essa organização leva o nome de Data Marts.

Antes de criar um DW é necessário definir como os dados serão guardados, através da modelagem de dados. Depois de escolher o formato de armazenamento (tabela, coluna, etc), os dados podem ser extraídos de CRMs, ERPs, planilhas, XLS, SQL e etc.

As informações armazenadas no DW são bastante utilizadas em Business Inteligência (BI), através de ferramentas de consulta baseadas em SQL.

O principal objetivo do data warehouse é centralizar os dados para facilitar a consulta, oferecendo um lugar organizado e sempre atualizado as empresas, a fim de facilitar a consulta de informações.

No DW os dados não podem ser modificados, isso assegura confiabilidade ao sistema, além da integridade do conteúdo armazenado. 

Agora que já sabemos o que é data warehouse, vamos entender o que é data lake.

O que é Data Lake?

Diferente do DW, o Data Lake é um banco de dados não relacional. Trata-se de um repositório compartilhado, onde é possível armazenar uma grande quantidade de dados.

No Data Lake é possível guardar qualquer tipo de dado, seja ele imagem, arquivo, dado de sensor, etc, e nesse sistema não é preciso determinar previamente o esquema de armazenamento das informações.

O Data Lake pode ser usado em várias ocasiões, como forma de data lake business intelligence (BI), ou seja, agregando inteligência ao negócio para a realização de estudos, APIs, aplicativos, e muitas outras, e os dados são armazenados como dados transacionais, processados e agregados.

Os Data Lakes ainda estão em evolução, portanto, a segurando não é tão eficiente como no DW, portanto, utilizar um sistema de DW alinhado com um data lake pode ser uma boa estratégia para não colocar informações em perigo.

Principais diferenças entre Data Warehouse e Data Lake

Tecnologia de hospedagem de dados

O DW é um banco de dados relacional, armazenado em um servidor mainframe ou em nuvem, já o Data Lake não é uma banco de dados relacional, e seu alojamento é em ambiente Hadoop ou big data semelhante.

Quantidade de dados

O DW é ótimo para grandes quantidades de dados que precisam ser analisados de imediato, já o Data Lake é mais útil para quem precisa armazenar um grande número de dados.

Qualidade dos dados

O DW tem dados mais selecionados, e consequentemente mais confiáveis, já os dados do Data Lake podem vir de qualquer lugar e fonte, tendo uma credibilidade menor.

Desempenho e custo

O DW é mais caro, por conta da qualidade do armazenamento e da confiabilidade, já o Data Lake é projetado para ser mais barato, mas com o passar dos anos a qualidade de segurança tem sido trabalhada e melhorada.

Comparativo entre Data Warehouse e Data Lake

Data warehouse Data lake
Dados estruturados Armazenamento de dados desestruturados, Dados semi-estruturados e estruturados
Esquema definido na escrita Esquema definido na leitura
BI baseado em SQL Ciência de dados, análise preditivas, BI
Armazenamento de dados frequentemente acessados, assim como dados agregados e sumarizados Armazenamento de dados detalhados, brutos e também processados
Acoplamento entre o armazenamento e o processamento Separação entre o armazenamento e o processamento



Após avaliar tantos pontos a respeito de data warehouse e data lake, duas tecnologias tão semelhantes, é possível verificar que ambas são complementares, e podem fazer muita diferença em uma empresa que valoriza o cuidado com os dados não só da própria organização, mas também dos consumidores.

Portanto, talvez escolher entre um sistema ou outro não seja a decisão mais acertada, mas sim, contar com ambos e ampliar a cobertura de gerenciamento dos dados, para que nenhuma informação passe despercebida.

Para controlar seus dados de forma responsável, melhorando seu atendimento e conversão, conheça as soluções da Zendesk.