As funções de áudio do Google em Geminai disseram que seria a maneira mais importante para Human e IA se comunicarem em tempo real, não apenas a síntese ou percepção de voz. Vários serviços e recursos de IA que foram derramados no Google I/O 2025, uma das funções, através de blogs através de blogs através de blogs através de blogs através de blogs através de blogs através de blogs. Foi lançado no 3º.
O recurso de diálogo de áudio básico fornecido pelo Gemini 2.5 Flash Preview é a chave para a conversa natural, como em uma pessoa real. Através do ritmo, risos, tom e tempo curto, quando você fala, crie uma voz de conversa próxima à voz humana real.
Antes de tudo, o controle de estilo pode usar o prompt de linguagem natural para ajustar o método de transmissão na conversa, selecionar detalhes específicos e criar uma variedade de tons e expressões. Então você pode dizer como se estivesse sussurrando. Além disso, o Google explica que é treinado para distinguir e ignorar a voz de fundo, o diálogo circundante e o áudio não relacionado.
Ele também suporta funções de integração de ferramentas que podem chamar ferramentas e funções durante a conversa. Isso permite que você integre as informações obtidas na pesquisa do Google em tempo real ou use as ferramentas desenvolvidas pelos desenvolvedores para conversar. Ele suporta streaming de áudio e vídeos, por isso é possível falar sobre feed de vídeo ou compartilhamento de tela.
Também é possível ter um diálogo emocional que reconheça que a mesma palavra pode levar a uma conversa diferente, dependendo da situação, e é caracterizada por uma interação consistente e inteligente, fortalecendo a função de raciocínio no diálogo de voz. Além disso, pode suportar mais de 24 idiomas e misturar vários idiomas.
O texto em fala controlado também é excelente. Em vez do tom rígido e não natural que você experimentou ao converter letras em voz, você pode solicitar uma voz natural e diversificada que aplique tons ou emoções próximas à voz humana real através do prompt.
Por exemplo, em um tom divertido, como uma provocação, uma voz leve e provocativa e um som rindo naturalmente na frase. (Huhh) Espere um minuto, (kuk) Eu apenas (kuk) oh, isso é um pouco esmagador. ‘Quando você entra no mesmo texto, cria uma voz natural como se o ator tocasse, não lendo um livro.
O desempenho dinâmico, que adiciona expressões animadas, expressa certas emoções e adiciona sotaque de acordo com o gênero de poesia e notícias e melhora o controle de velocidade e pronúncia que ajusta a velocidade e aumenta a precisão da pronúncia, incluindo certas palavras, controle de pronúncia).
O Google disse: “Avaliamos os riscos potenciais com antecedência em todos os estágios de desenvolvimento dessas funções básicas de áudio e estabelecemos uma estratégia de relaxamento com base nas informações obtidas. Verifica essas medidas por meio de rigorosa avaliação de segurança interna e externa, incluindo a composição da equipe vermelha abrangente para a distribuição responsável.” Synthid (Synthid) é construída em relação à garantia, garantindo o auditorio.
dl-ciokorea@foundryco.com