Risco no processo decisório para escolha dos dados no treinamento de modelos

Na sequência de artigos, abordarei o receio do público em relação à evolução da Inteligência Artificial. É inegável que os algoritmos cada vez mais avançados e o vasto volume de dados disponíveis para o treinamento de máquinas têm acelerado o desenvolvimento da IA de forma exponencial, gerando muitas incertezas sobre até que ponto essa tecnologia pode ser perigosa.
Diferente da percepção muitas vezes equivocada de que a IA é perigosa por si só, como se fosse capaz de adquirir consciência ou tomar decisões baseadas em sentimentos ou outras ideias fantasiosas que permeiam nosso imaginário, o verdadeiro perigo está nas mãos de quem produz ou utiliza a IA. O risco real está, na verdade, nas mãos da Inteligência Humana e neste ensaio irei abordar o processo decisório para escolha dos dados no treinamento de modelos.
Quando usamos o ChatGPT ou qualquer outra IA generativa, para o público em geral, o funcionamento dessas tecnologias é como uma “caixa preta”, em que as respostas parecem ser geradas de forma mágica. Na realidade, essas respostas e textos são produzidos a partir de bilhões de textos utilizados para treinar a máquina. Mas, afinal, que textos são esses? Não há clareza sobre quais textos são utilizados para treinar esses modelos. A máquina, por si só, não possui discernimento para diferenciar entre um “texto bom” e um “texto mau”. E, mais importante, o que define um “texto bom” ou um “texto mau”?
É nesse contexto que os vieses ganham destaque. Se a maioria dos dados disponíveis apresentar um determinado tema sob um viés específico, a máquina tenderá a priorizar essa perspectiva ao gerar respostas. Assim, a definição de “texto bom” ou “texto mau” dependerá do conjunto de dados utilizado para treinar a máquina. Por exemplo, seria a mesma massa de dados utilizada para treinar um modelo em um país democrático diferente da massa de dados para treinar um modelo em um país totalitário? Qual o viés embutido no modelo gerado? Essa questão ressalta a importância de compreender a decisão de como e de quem escolheu as fontes e os vieses presentes nos dados utilizados.
Mais um detalhe que passa despercebido é o fato de que as informações submetidas pelos usuários aos modelos também são frequentemente utilizadas pelos provedores para retreiná-los de forma contínua, o que pode, inadvertidamente, introduzir novos vieses ou reforçar os já existentes. Isso significa que, ao interagir com ferramentas de IA generativa, os próprios usuários acabam contribuindo para o ajuste desses modelos, muitas vezes sem estarem cientes disto. Além disso, a falta de controle sobre como esses dados são utilizados pode amplificar preconceitos já presentes nos modelos, criando ciclos viciosos que perpetuam desigualdades ou distorções na geração de respostas.
Ao escolhemos uma IA Generativa é muito importante conhecermos o provedor do modelo para compreender se há alguma tendência que poderá influenciar nas respostas geradas.