Uma pequena região do cérebro, conhecida como área tegmentar ventral (VTA), desempenha um papel fundamental na maneira como processamos recompensas. Produz dopamina, um neuromodulador que ajuda a prever recompensas futuras com base em pistas contextuais. Uma equipe das universidades de Genebra (Unige), Harvard e McGill mostrou que o VTA vai ainda mais longe: codifica não apenas a recompensa prevista, mas também o momento preciso que se espera. Essa descoberta, possibilitada por um algoritmo de aprendizado de máquina, destaca o valor da combinação de inteligência artificial com a neurociência. O estudo é publicado na revista Natureza.
A área tegmentar ventral (VTA) desempenha um papel fundamental na motivação e no circuito de recompensa do cérebro. A principal fonte de dopamina, esse pequeno conjunto de neurônios envia esse neuromodulador para outras regiões do cérebro para desencadear uma ação em resposta a um estímulo positivo.
“Inicialmente, pensava -se que o VTA era apenas o centro de recompensa do cérebro. Mas nos anos 90, os cientistas descobriram que não codifica a se recompensa, mas a previsão de recompensa”, explica Alexandre Pouget, professor pleno do Departamento de Neurociências Básicas da Faculdade de Medicina Unigue.
Experimentos sobre animais mostraram que, quando uma recompensa segue constantemente um sinal de luz, por exemplo, o VTA acaba liberando a dopamina não no momento da recompensa, mas assim que o sinal aparecer. Essa resposta codifica, portanto, a previsão da recompensa – ligada ao sinal – e não à própria recompensa.
Uma função muito mais sofisticada
Esse “aprendizado de reforço”, que requer supervisão mínima, é central para o aprendizado humano. É também o princípio por trás de muitos algoritmos de inteligência artificial que melhoram o desempenho através do treinamento – como o AlphaGo, o primeiro algoritmo a derrotar um campeão mundial no jogo de Go.
Em um estudo recente, a equipe de Alexandre Pouget, em colaboração com Naoshige Uchida, da Universidade de Harvard e Paul Masset, da Universidade McGill, mostra que a codificação do VTA é ainda mais sofisticada do que se pensava anteriormente. “Em vez de prever uma soma ponderada de recompensas futuras, o VTA prevê sua evolução temporal. Em outras palavras, cada ganho é representado separadamente, com o momento preciso em que se espera”, explica o pesquisador unge, que liderou este trabalho.
“Embora soubéssemos que os neurônios do VTA priorizavam as recompensas fechadas no tempo com as mais adiante no futuro – no princípio de um pássaro na mão vale dois no mato – descobrimos que os neurônios diferentes o fazem em diferentes escalas de tempo, com alguns focos de recompensa. Sistema de aprendizado Grande flexibilidade, permitindo que ele se adapte para maximizar recompensas imediatas ou atrasadas, dependendo dos objetivos e prioridades do indivíduo “.
Ai e neurociência: uma rua de mão dupla
Esses achados decorrem de um diálogo frutífero entre neurociência e inteligência artificial. Alexandre Pouget desenvolveu um algoritmo puramente matemático que incorpora o momento do processamento de recompensa. Enquanto isso, os pesquisadores de Harvard reuniram extensos dados neurofisiológicos sobre a atividade da ATV em animais que sofrem recompensas.
“Eles então aplicaram nosso algoritmo aos seus dados e descobriram que os resultados correspondiam perfeitamente às suas descobertas empíricas”. Enquanto o cérebro inspira técnicas de IA e aprendizado de máquina, esses resultados demonstram que os algoritmos também podem servir como ferramentas poderosas para revelar nossos mecanismos neurofisiológicos.