Um Ano Depois, a OpenAI ainda não lançou a sua Ferramenta de Clonagem de Voz

Créditos da imagem: Stefano Guidi / Getty Images
No final de março do ano passado, a OpenAI apresentou uma “pré-visualização em pequena escala” do Voice Engine, uma ferramenta de IA capaz de clonar a voz de uma pessoa utilizando apenas 15 segundos de áudio. Quase um ano depois, a ferramenta continua em testes limitados, sem um cronograma claro para um lançamento completo – ou confirmação de que será lançada.
A hesitação da OpenAI em lançar a tecnologia de forma alargada pode dever-se a preocupações com uma potencial utilização indevida ou a um esforço para evitar o escrutínio regulamentar. A empresa já foi criticada por dar prioridade ao lançamento rápido de produtos em detrimento da segurança e por se lançar no mercado antes dos concorrentes.
Em uma declaração ao TechCrunch, um porta-voz da OpenAI disse que a empresa continua a testar o Voice Engine com um grupo seleto de “parceiros confiáveis”.
“Estamos a aprender com a forma como [os nossos parceiros] estão a utilizar a tecnologia para melhorar a sua utilidade e segurança”, explicou o porta-voz. “Até agora, temos visto aplicações promissoras em terapia da fala, aprendizagem de línguas, apoio ao cliente, personagens de videojogos e avatares de IA.”
Persistem os atrasos no motor de voz da OpenAI, apesar das suas capacidades avançadas de fala
O Voice Engine, a tecnologia por detrás da API de conversão de texto em voz da OpenAI e do Modo de Voz do ChatGPT, produz um discurso altamente natural que imita de perto o orador original. A ferramenta converte texto escrito em discurso, limitado por determinadas salvaguardas de conteúdo. No entanto, o seu lançamento sofreu vários atrasos e alterações de prazos.
Numa publicação no blogue em junho de 2024, a OpenAI explicou que o Voice Engine aprende a prever os sons mais prováveis que um orador produziria com base numa determinada transcrição de texto, tendo em conta as variações de voz, sotaque e estilo de fala. Isto permite que o modelo gere não só texto falado, mas também “enunciados falados” que simulam a forma como diferentes oradores podem ler em voz alta.
Originalmente conhecido como Custom Voices, a OpenAI tinha planeado integrar o Voice Engine na sua API a 7 de março de 2024, de acordo com um rascunho de publicação no blogue visto pelo TechCrunch. O lançamento inicial foi destinado a até 100 “desenvolvedores confiáveis”, priorizando aqueles que criam aplicativos com um “benefício social” ou demonstrando usos “inovadores e responsáveis” da tecnologia. A OpenAI tinha até registado a ferramenta e fixado o preço: 15 dólares por milhão de caracteres para vozes normais e 30 dólares por milhão de caracteres para vozes com qualidade HD.
À última hora, a OpenAI adiou o anúncio. Quando o Voice Engine foi finalmente revelado, algumas semanas mais tarde, não tinha uma opção de registo público. Em vez disso, a OpenAI declarou que o acesso permaneceria restrito a um pequeno grupo de cerca de 10 programadores com os quais a empresa estava a colaborar desde o final de 2023.
OpenAI enfatiza as considerações éticas no lançamento limitado do Voice Engine
“Esperamos promover uma discussão sobre o uso responsável de vozes sintéticas e como a sociedade pode se adaptar a esses avanços”, escreveu a OpenAI em sua postagem no blog de anúncio do Voice Engine em março de 2024. “Os insights dessas conversas e testes em pequena escala nos ajudarão a determinar se e como implantar essa tecnologia em uma escala maior.”
A OpenAI vem desenvolvendo o Voice Engine desde 2022 e o apresentou aos formuladores de políticas globais em 2023. A ferramenta, acessível a parceiros selecionados como a Livox, oferece clonagem de voz de alta qualidade, mas permanece apenas online, limitando sua usabilidade para alguns.
O diretor executivo da Livox, Carlos Pereira, elogiou as suas capacidades multilingues, mas espera uma versão offline. A OpenAI não forneceu actualizações sobre um lançamento mais alargado ou preços, e a Livox utiliza-o atualmente de forma gratuita.
Uma das principais razões para o atraso do Voice Engine é o risco de utilização indevida, especialmente durante as eleições. A OpenAI acrescentou salvaguardas como a marca de água e exige o consentimento explícito para a clonagem de voz, mas a aplicação destas políticas à escala continua a ser um desafio.
A empresa está também a explorar a autenticação de voz e as restrições à clonagem de figuras públicas. Com o aumento das fraudes de voz com IA, o futuro do Voice Engine permanece incerto, tornando-o uma das pré-visualizações limitadas mais antigas da OpenAI.
Leia o Artigo Original: TechCrunch
Leia mais: Apple Apresenta Resumos de Avaliações de Aplicações Gerados por IA no iOS 18.4
Deixe um comentário