Desvende a diferença entre as duas estruturas mais usadas para armazenamento e gestão de dados. Entenda os prós e contras de cada uma delas.
Data lake e data warehouse, à primeira vista, parecem conceitos complicados. A natureza neologista dos termos faz oposição a simplicidade de seus significados: são apenas arquiteturas de armazenamento de dados.
Tarefas que utilizam big data envolvem elevadas quantidades de dados que precisam ser armazenadas em certos espaços. Acontece que os repositórios funcionam de formas distintas em relação ao grau de tratamento dos dados de entrada. É justamente nesse sentido que se apresentam as diferenças entre data lake e data warehouse. Vejamos com mais detalhes as contraposições.
Data lake: um espaço para “todos os dados”
Data lake é um termo criado por James Dixon, CTO da Pentaho, traduzindo para o português: “lago de dados”, o nome, além de criativo, é extremamente sugestivo. O data lake é simplesmente uma estrutura onde se podem armazenar dados de qualquer tipo em qualquer formato, ou seja, em sua forma bruta, não estruturada e distribuída. Dados não estruturados são por exemplo: imagens, dados de redes sociais (tweets, frases, postagens e etc..), dados de dispositivos IoT e outros. Tomando o agronegócio como referência, o armazenamento de imagens obtidas via drones e satélites de áreas agricultáveis são exemplos de dados não estruturados ideais para data lake.
Ao utilizar esse tipo de repositório, os usuários podem explorar os dados como e quando querem. O usuário pode inclusive distribuir dados em cloud através de stacks de software como o Apache Hadoop. O data lake permite até mesmo que o usuário não faça nada com os dados, porém, quando eventualmente se acumulam muitos dados “esquecidos”, se diz que há a formação de um data swamp ou “pântano de dados”.
Data warehouse: um espaço para “dados sofisticados”
Em oposição aos data lakes, os data warehouses não permitem a entrada de qualquer tipo de dado. Para poder inserir uma base de dados a um data warehouse, é necessário que esses dados estejam em um formato determinado, são os chamados dados estruturados. Os dados estruturados geralmente possuem forma numérica: dados de séries temporais e financeiros se encontram nessa categoria. No contexto do agronegócio, são por exemplo dados tabulares de negociações e tradings. Outra informação interessante sobre a forma de armazenamento geralmente contém funções de indexação de alta performance, buscas especializadas e particionamento de dados por categorias ou temporalidade.
O comparativo: data lake vs data warehouse
Apesar de serem duas formas de armazenamento, data lake e data warehouse possuem muitas diferenças. A escolha entre os sistemas deve se adequar às necessidades do contratante, e em alguns casos, a adoção de um pode ser complementar ao outro.
O data warehouse pode ser mais custoso, principalmente quando implementado por produtos de grandes empresas como IBM, Oracle e Teradata, em função do licenciamento do SGBDs de cada empresa. Existem também as opções de construção de data warehouse em nuvem com a utilização de clusters otimizados baseados em SGBDs abertos, como Postgresql, MySQL e MariaDB. O alto tempo gasto com modelagem, estruturação e ETL de dados antes do processamento é outra desvantagem do armazenamento em data warehouse. O destaque da modalidade é a maturidade operacional, ligada aos bancos de dados relacionais. O fato do serviço ser fornecido por empresas consolidadas, facilita o acesso do usuário a suporte e assessoria técnica. Outro aspecto positivo em relação ao data lake é a menor necessidade de manutenção da arquitetura e gestão de dados.
O data lake se beneficia de ser praticamente nativo em cloud e fortemente baseado em tecnologias abertas, fatores que lhe conferem menor custo. A liberdade operacional é uma das forças do data lake, permite em seu interior, o uso de #analytcs e machine learning através de algoritmos autorais de desenvolvedores e cientistas de dados. A facilidade de criação de sending boxes no data lake é mais uma de suas qualidades. Com sending boxes, podem ser criadas cópias de dados e espaços para testes. O ambiente versátil do data lake, também permite ao usuário economizar tempo e recursos com processos de estruturação de dados. Porém, para operar em data lake, é necessário maior domínio de #analytics e também cuidado com sua arquitetura devido a formação dos “data swamps”.
Agora que você conhece as diferenças entre as duas formas de armazenamento, pode determinar a melhor forma de guardar os dados de sua empresa. A SciCrop é especialista em #analytics e pode te ajudar a escolher o “melhor lar” para seu banco de dados. Clique aqui e saiba mais