O modelo de precificação da Databricks opera com base no sistema de pagamento conforme o uso, onde os usuários são cobrados apenas pelo que consomem, medido em unidades chamadas Databricks Units (DBU). As DBUs representam os recursos computacionais utilizados para executar cargas de trabalho na plataforma Databricks, incluindo CPU, memória e I/O. A tarifa das DBUs varia entre $0.08 e $0.50, dependendo de diversos fatores, tais como provedor de nuvem, região, edição Databricks e tipo de computação (Jobs, SQL, ML, etc.).
A principal fórmula para calcular o custo total é:
Os principais fatores que influenciam o custo das DBUs incluem o provedor de nuvem e região, a edição Databricks escolhida (Standard, Premium ou Enterprise), o tipo de computação (Jobs, SQL, ML) e a possibilidade de contratos de uso comprometido, que oferecem descontos para capacidade reservada por um período determinado.
Além das DBUs, os usuários também pagam diretamente ao provedor de nuvem por recursos associados, como máquinas virtuais, armazenamento e rede. Para modelos de Machine Learning (ML) com MLflow, o custo é baseado na concorrência e no número de solicitações por hora, em vez de DBUs.
A Databricks oferece uma abordagem de precificação detalhada alinhada às diferentes formas como os usuários utilizam a plataforma Lakehouse. Engenheiros de dados, analistas de dados, cientistas de dados e analistas de negócios podem otimizar os custos com base em seus casos de uso específicos.
Essa abordagem de pagamento conforme o uso elimina custos iniciais significativos, proporcionando a flexibilidade de escalar recursos de acordo com as necessidades dinâmicas do negócio. Os usuários pagam apenas pelo que consomem com o modelo de precificação da Databricks.
A Databricks oferece diversos produtos em sua Plataforma Lakehouse para diferentes cargas de trabalho de dados. Cada produto tem seu uso medido em DBUs consumidos, multiplicado pela taxa de DBU para determinar o custo final. Abaixo estão alguns produtos-chave e seus preços:
- Databricks Jobs (A partir de $0.07/DBU): Projetado para executar fluxos de trabalho de ETL em produção em escala, os Jobs autoescaláveis otimizam os recursos de computação para atender às necessidades de processamento de dados. Integração nativa com o Delta Lake proporciona confiabilidade e qualidade aos pipelines de dados.
- Delta Live Tables (A partir de $0.20/DBU): Facilita a construção de pipelines de dados confiáveis e escaláveis usando SQL ou Python através do Apache Spark. O Delta Live Tables consome DBUs do Jobs Compute para executar pipelines de dados em streaming e lote.
- Databricks SQL (A partir de $0.22/DBU): Oferece análises interativas de SQL diretamente em conjuntos de dados maciços em data lakes. Escala para trilhões de linhas com sintaxe compatível com ANSI e integração com ferramentas BI.
- Data Science & ML (A partir de $0.40/DBU): Fornece uma plataforma completa para ciência de dados e machine learning, potencializada por Spark, MLflow e Delta Lake. ML Compute clusters, GPUs e recursos avançados de MLOps têm custos mais elevados.
- Serverless Inference (A partir de $0.07/DBU): Permite implantar modelos ML para inferência com baixa latência e dimensionamento automático. Custos são baseados no uso efetivo, oferecendo uma maneira eficiente e flexível de integrar previsões de ML com aplicações.
A Databricks oferece a Calculadora de DBU para estimar custos, permitindo modelar cargas de trabalho hipotéticas com base em parâmetros como edição Databricks, tipo de computação, instância AWS e plataforma de nuvem.
Entretanto, embora a Databricks proporcione flexibilidade, alguns desafios na integração manual dos custos no relatório geral de gastos em nuvem podem surgir. Além disso, a falta de controles robustos de limite de gastos e alertas de custos pode levar a surpresas desagradáveis e ultrapassagens de orçamento.
Em conclusão, o modelo de precificação da Databricks opera em um sistema transparente e amigável ao usuário, cobrando apenas pelos recursos utilizados. Com a unidade de medida central, as DBUs, e a Calculadora de DBU, os usuários podem ter uma estimativa razoável dos custos gerais da Databricks, essenciais para manter operações analíticas dentro do orçamento.
Em Termos Simples: Como Funciona a Precificação da Databricks?
- Analogia Prática: A modelagem do preço da Databricks assemelha-se ao pagamento da conta de eletricidade. Os usuários pagam pela quantidade de energia consumida, semelhante à forma como pagam pela computação consumida na plataforma Databricks, medida em Databricks Units (DBUs).
- Cálculo do Custo: Para calcular o custo, multiplica-se a quantidade de DBUs consumidas pela taxa correspondente em dólares. Por exemplo, se uma carga de trabalho consumir 100 DBUs a uma taxa de $0,15/DBU, o custo será de $15.
- Armazenamento de Dados e Hardware: Os custos de armazenamento de dados e recursos de hardware na nuvem (como instâncias EC2) são cobrados separadamente pelo provedor de nuvem. A Databricks cobra apenas pelos recursos computacionais utilizados, seguindo o modelo de pagamento conforme o uso.
- Fatores que Afetam o Consumo de DBU: O consumo de DBU depende do tempo necessário para concluir uma carga de trabalho, seja ETL, BI ou treinamento de modelos ML. Fatores como volume de dados, velocidade e complexidade influenciam o tempo de computação.
- Fatores que Afetam a Taxa $ por DBU: A taxa $ por DBU é influenciada pelo provedor de nuvem, edição Databricks e tipo de computação (Jobs, SQL, ML). Escolhas como AWS vs. Azure, Standard vs. Enterprise e Jobs Compute vs. ML Compute impactam a taxa.
- Exemplo de modelagem de custo: Um exemplo prático calcula o custo mensal com base na assinatura Premium da Databricks na AWS, com uma carga de trabalho diária de 8 horas, usando instâncias i3.xlarge a uma taxa de $0,15/DBU. A fórmula considera o número de instâncias e o tempo de execução diário.
Em resumo, a compreensão da estrutura de custos da Databricks, especialmente das DBUs, é crucial para evitar surpresas e manter operações analíticas dentro do orçamento.