Organizações de todos os tamanhos reconheceram que os dados são um dos principais facilitadores para aumentar e sustentar a inovação e gerar valor para seus clientes e unidades de negócios. Elas estão modernizando avidamente as plataformas de dados tradicionais com tecnologias nativas da nuvem que são altamente escaláveis, ricas em recursos e econômicas. À medida que você procura tomar decisões de negócios guiadas por dados, você pode ser ágil e produtivo ao adotar uma mentalidade que fornece produtos de dados a partir de equipes especializadas, ao invés de por meio de uma plataforma de gerenciamento de dados centralizada que fornece análises generalizadas.
Neste post, será descrita uma abordagem para implementar uma arquitetura de data mesh usando serviços nativos da AWS, incluindo o AWS Lake Formation e o AWS Glue. Essa abordagem permite que as linhas de negócios (LOBs) e as unidades organizacionais operem de forma autônoma, possuindo seus produtos de dados de ponta a ponta, ao mesmo tempo em que fornece descoberta de dados centralizada, governança e auditoria para a organização em geral, para garantir a privacidade e a conformidade dos dados.
Benefícios de um modelo de data mesh
Um modelo centralizado destina-se a simplificar a equipe e o treinamento através da centralização de dados e conhecimento técnico em um único local, reduzir o débito técnico gerenciando uma única plataforma de dados e reduzir os custos operacionais. Os grupos de plataformas de dados, muitas vezes parte da TI central, são divididos em equipes com base nas funções técnicas da plataforma que eles suportam. Por exemplo, uma equipe pode ser proprietária das tecnologias de ingestão usadas para coletar dados de várias fontes de dados gerenciadas por outras equipes e LOBs. Uma equipe diferente pode possuir pipelines de dados, escrever e depurar, extrair, transformar e carregar código (ETL) e orquestrar execuções de trabalho, ao mesmo tempo em que valida e corrige problemas de qualidade de dados e garante que o processamento de dados atenda aos SLAs de negócios. No entanto, o gerenciamento de dados por meio de uma plataforma de dados central pode criar desafios de dimensionamento, propriedade e responsabilidade, porque as equipes centrais podem não entender as necessidades específicas de um domínio de dados, seja devido a tipos e armazenamento de dados, segurança, requisitos de catálogo de dados ou tecnologias específicas necessárias para o processamento de dados.