Um Ano Depois, a OpenAI ainda não lançou a sua Ferramenta de Clonagem de Voz

By Ana Kiesse Zeleme Apps & Software, Inteligência Artificial Clonagem de Voz, OpenAI Comentários desativados

Créditos da imagem: Stefano Guidi / Getty Images

No final de março do ano passado, a OpenAI apresentou uma “pré-visualização em pequena escala” do Voice Engine, uma ferramenta de IA capaz de clonar a voz de uma pessoa utilizando apenas 15 segundos de áudio. Quase um ano depois, a ferramenta continua em testes limitados, sem um cronograma claro para um lançamento completo – ou confirmação de que será lançada.

A hesitação da OpenAI em lançar a tecnologia de forma alargada pode dever-se a preocupações com uma potencial utilização indevida ou a um esforço para evitar o escrutínio regulamentar. A empresa já foi criticada por dar prioridade ao lançamento rápido de produtos em detrimento da segurança e por se lançar no mercado antes dos concorrentes.

Em uma declaração ao TechCrunch, um porta-voz da OpenAI disse que a empresa continua a testar o Voice Engine com um grupo seleto de “parceiros confiáveis”.

“Estamos a aprender com a forma como [os nossos parceiros] estão a utilizar a tecnologia para melhorar a sua utilidade e segurança”, explicou o porta-voz. “Até agora, temos visto aplicações promissoras em terapia da fala, aprendizagem de línguas, apoio ao cliente, personagens de videojogos e avatares de IA.”

Persistem os atrasos no motor de voz da OpenAI, apesar das suas capacidades avançadas de fala

O Voice Engine, a tecnologia por detrás da API de conversão de texto em voz da OpenAI e do Modo de Voz do ChatGPT, produz um discurso altamente natural que imita de perto o orador original. A ferramenta converte texto escrito em discurso, limitado por determinadas salvaguardas de conteúdo. No entanto, o seu lançamento sofreu vários atrasos e alterações de prazos.

Numa publicação no blogue em junho de 2024, a OpenAI explicou que o Voice Engine aprende a prever os sons mais prováveis que um orador produziria com base numa determinada transcrição de texto, tendo em conta as variações de voz, sotaque e estilo de fala. Isto permite que o modelo gere não só texto falado, mas também “enunciados falados” que simulam a forma como diferentes oradores podem ler em voz alta.

Originalmente conhecido como Custom Voices, a OpenAI tinha planeado integrar o Voice Engine na sua API a 7 de março de 2024, de acordo com um rascunho de publicação no blogue visto pelo TechCrunch. O lançamento inicial foi destinado a até 100 “desenvolvedores confiáveis”, priorizando aqueles que criam aplicativos com um “benefício social” ou demonstrando usos “inovadores e responsáveis” da tecnologia. A OpenAI tinha até registado a ferramenta e fixado o preço: 15 dólares por milhão de caracteres para vozes normais e 30 dólares por milhão de caracteres para vozes com qualidade HD.

À última hora, a OpenAI adiou o anúncio. Quando o Voice Engine foi finalmente revelado, algumas semanas mais tarde, não tinha uma opção de registo público. Em vez disso, a OpenAI declarou que o acesso permaneceria restrito a um pequeno grupo de cerca de 10 programadores com os quais a empresa estava a colaborar desde o final de 2023.

OpenAI enfatiza as considerações éticas no lançamento limitado do Voice Engine

“Esperamos promover uma discussão sobre o uso responsável de vozes sintéticas e como a sociedade pode se adaptar a esses avanços”, escreveu a OpenAI em sua postagem no blog de anúncio do Voice Engine em março de 2024. “Os insights dessas conversas e testes em pequena escala nos ajudarão a determinar se e como implantar essa tecnologia em uma escala maior.”

A OpenAI vem desenvolvendo o Voice Engine desde 2022 e o apresentou aos formuladores de políticas globais em 2023. A ferramenta, acessível a parceiros selecionados como a Livox, oferece clonagem de voz de alta qualidade, mas permanece apenas online, limitando sua usabilidade para alguns.

O diretor executivo da Livox, Carlos Pereira, elogiou as suas capacidades multilingues, mas espera uma versão offline. A OpenAI não forneceu actualizações sobre um lançamento mais alargado ou preços, e a Livox utiliza-o atualmente de forma gratuita.

Uma das principais razões para o atraso do Voice Engine é o risco de utilização indevida, especialmente durante as eleições. A OpenAI acrescentou salvaguardas como a marca de água e exige o consentimento explícito para a clonagem de voz, mas a aplicação destas políticas à escala continua a ser um desafio.

A empresa está também a explorar a autenticação de voz e as restrições à clonagem de figuras públicas. Com o aumento das fraudes de voz com IA, o futuro do Voice Engine permanece incerto, tornando-o uma das pré-visualizações limitadas mais antigas da OpenAI.

Leia o Artigo Original: TechCrunch

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Um Ano Depois, a OpenAI ainda não lançou a sua Ferramenta de Clonagem de Voz