Geração de Dados Sintéticos: A Nova Fronteira para Superar Limitações de Dados em IA

Neste ensaio, apresentarei um conceito em Inteligência Artificial que aprendi recentemente e achei realmente interessante. Um dos grandes desafios atualmente para quem trabalha com IA é justamente a obtenção de um grande volume de dados para realizar treinamentos de máquina voltados à pesquisa e desenvolvimento.
Como demonstramos em ensaios anteriores, IA é fundamentalmente aprendizado por meio de dados. No entanto, obter uma quantidade realmente significativa para nossos projetos pode, às vezes, se tornar um desafio. Para atender a essa demanda, surgiu o conceito de 𝗚𝗲𝗿𝗮𝗰ã𝗼 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀 𝗦𝗶𝗻𝘁é𝘁𝗶𝗰𝗼𝘀.
A 𝗚𝗲𝗿𝗮𝗰ã𝗼 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀 𝗦𝗶𝗻𝘁é𝘁𝗶𝗰𝗼𝘀 refere-se ao processo de criação de dados artificiais que imitam as características e padrões de dados reais. Esses dados são gerados por algoritmos e modelos matemáticos com o objetivo de replicar a estrutura, variabilidade e distribuição dos dados do mundo real, sem copiar diretamente instâncias específicas.
A 𝗚𝗲𝗿𝗮𝗰ã𝗼 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀 𝗦𝗶𝗻𝘁é𝘁𝗶𝗰𝗼𝘀 é útil em diversas áreas, principalmente onde o acesso a grandes volumes de dados reais é limitado por questões de privacidade, custo ou disponibilidade.
A ideia básica é utilizar uma base de dados real, submetê-la a uma IA generativa protegida e, a partir dela, gerar uma nova massa de dados pública com o mesmo volume ou maior e as mesmas características da base original, sem expor dados sensíveis. Por exemplo, modificam-se informações confidenciais, como nomes e números, que não podem ser revelados.
Uma vez gerada essa nova massa de dados sintéticos, é possível publicá-la para desenvolvimento, testes, pesquisas e estudos, sem comprometer a privacidade da informação.
Um exemplo real de uso de dados sintéticos em medicina é a criação de dados artificiais de pacientes na área de diagnóstico médico, sem violar a privacidade dos mesmos. Na área de radiologia, algoritmos de GANs estão sendo usados para criar imagens médicas sintéticas, como ressonâncias magnéticas, tomografias e radiografias.
Essas imagens artificiais possuem a mesma qualidade visual e características dos exames médicos reais, mas são geradas sem expor informações sensíveis. Por exemplo, dados sintéticos são utilizados para treinar algoritmos de detecção de câncer. Em muitos casos, os dados reais de imagens de câncer de pulmão, por exemplo, são limitados ou altamente sensíveis.
Assim, modelos de GANs podem ser treinados com um pequeno conjunto de dados reais e, posteriormente, usados para gerar milhares de imagens sintéticas de pulmões com nódulos cancerígenos e sem nódulos. Como as imagens sintéticas não correspondem a pacientes reais, não há risco de violação de dados sensíveis.
Essa abordagem está sendo adotada por várias startups para obter grandes volumes de dados para seus projetos, sem comprometer a privacidade de seus clientes ou fornecedores de dados.