Um novo sistema de tradução de IA para fones de ouvido clones várias vozes simultaneamente

A tradução espacial da fala consiste em dois modelos de IA, o primeiro dos quais divide o espaço ao redor da pessoa que usa os fones de ouvido em pequenas regiões e usa uma rede neural para procurar falantes em potencial e identificar sua direção.

O segundo modelo traduz as palavras dos falantes de francês, alemão ou espanhol em texto em inglês usando conjuntos de dados disponíveis ao público. O mesmo modelo extrai as características únicas e o tom emocional da voz de cada falante, como o tom e a amplitude, e aplica essas propriedades ao texto, criando essencialmente uma voz “clonada”. Isso significa que, quando a versão traduzida das palavras de um alto-falante é transmitida ao usuário do fone de ouvido alguns segundos depois, parece que está vindo da direção do falante e a voz soa muito com a própria falante, não um computador de som robótico.

Dado que a separação de vozes humanas é difícil o suficiente para os sistemas de IA, poder incorporar essa capacidade em um sistema de tradução em tempo real, mapear a distância entre o usuário e o alto-falante e obter a latência decente em um dispositivo real é impressionante, diz Samuele Cornell, um pesquisador de pós-doutorado no Instituto de Tecnologias de Idiomas da Carnegie Mellon University, que não trabalhou no projeto.

“A tradução em tempo real de fala para fala é incrivelmente difícil”, diz ele. “Seus resultados são muito bons nas configurações limitadas de testes. Mas para um produto real, seria necessário muito mais dados de treinamento-possivelmente com ruído e gravações do mundo real do fone de ouvido, em vez de confiar puramente de dados sintéticos”.

A equipe de Gollakota agora está se concentrando em reduzir a quantidade de tempo que leva para a tradução da IA ​​entrar em ação depois que um orador diz algo, que acomodará conversas mais que soam naturais entre as pessoas que falam idiomas diferentes. “Queremos realmente descer essa latência significativamente para menos de um segundo, para que você ainda possa ter a vibração conversacional”, diz Gollakota.

Isso continua sendo um grande desafio, porque a velocidade com que um sistema de IA pode traduzir um idioma para outro depende da estrutura dos idiomas. Das três idiomas, a tradução espacial da fala foi treinada, o sistema foi o mais rápido para traduzir francês para o inglês, seguido pelo espanhol e depois alemão – refletindo como o alemão, ao contrário dos outros idiomas, coloca os verbos de uma frase e grande parte de seu significado no final e não no começo da Universidade de Ministério da Universidade do Maior da Universidade do Maior da Universidade do Maior da Mainha, no Ministério da Universidade de Ministério da Ministério do Ministério da Ministério do Ministério da Universidade de Maior, em Amanester, o que está em um que está em um que é o que está em um que é um dos dois pontos de vista que se destaca.

Reduzir a latência pode tornar as traduções menos precisas, ele adverte: “Quanto mais você esperar (antes de traduzir), mais contexto você tiver e melhor será a tradução. É um ato de equilíbrio”.