13 de ago. de 2014

Voder, o "pai" da voz do Google.

Você talvez nunca tenha ouvido falar da "Bell Labs", mas com certeza já usou algumas de suas invenções e descobertas, tais como o Fax, a Televisão e todo o resto que veio depois, uma vez que eles tem um papel fundamental na invenção do transístor! Além é claro do LED, do laser, do Unix, da linguagem C e C++, o modem, o começo do VoIP e outras coisas essenciais para possibilitar o nosso estilo de vida atual.
O que quase ninguém sabe é que já em 1939 eles apresentaram um projeto terminado de um sintetizador de voz na World`s  Fair, o "Voder", que em conjunto com o "Vocoder" iriam possibilitar desde sistemas interativos de GPS, automação residencial, inteligência artificial e até efeitos de guitarra e teclado.

Pesquisa e desenvolvimento:
O Sr. Homer Dudley passou 40 anos estudando o mecanismo da fala, em um esforço para levar comunicados encriptados aos soldados durante a Segunda Guerra Mundial. A ideia era criptografar a mensagem, envia-la em um formato de dados e sintetiza-la em fala novamente por meio dos dois mecanismos, "Voder" e "Vocoder".
Isso pode parecer corriqueiro nos dias atuais com skype, whats app e derivados, mas imagine cumprir tal tarefa 8 anos antes deles mesmos (Bell Labs) inventarem o transistor (em 1947) e muito mais tempo antes do processamento de audio digital.

Um pouco sobre Fonética:
Aquela notação estranha na frente das palavras no dicionário é uma transcrição fonética da palavra, é um padrão internacional (IPA) para orientar a pronúncia de um fonema levando em conta o mecanismo fisiológico empregado na criação do som.
Isso é pertinente a esse artigo porque sistemas de geração e reconhecimento de fala utilizam esses padrões para fazerem sua "mágica". A classificação "vogal" e "consoante" se dá justamente pela forma de articular os sons e se subdividem ainda mais:
Note como para falar "força" e "violência" você começa encostando os dentes no lábio inferior e como une os lábios para dizer "bolsa", "ponte" ou "mosca". "F" e "V" são "consoantes labio-dentais" enquanto "B", "P" e "M" são "consoantes bilabiais".

Modo de Operação:

Um gerador de ruído e um Oscilador de relaxamento, passando por um conjunto de filtros passa-banda (lembram do artigo sobre Equalizadores?) criavam o som conforme o operador alternava entre os dois (podemos traçar um paralelo com o som nascendo da respiração antes de chegar à laringe) e algumas teclas articulavam pausas consonantes como "t", "d", "p", "b", "k" e "g".
A frequência podia ser ajustada em um pedal, tanto para utilizar registros mais graves para simular homens ou agudos para simular mulheres quanto para criar a "entonação" ao longo da frase.
Notando que as vogais puras soavam como buzinas de navio, durante o processo de desenvolvimento do Voder foi adicionado um sistema de "vibrato", permitindo ao aparelho além de criar fonemas humanos, cantar e até imitar animais como vacas e porcos, feito registrado em um vídeo no final desse artigo.

Demonstração:

Desnecessário afirmar que operar o Voder era uma tarefa demasiado complexa, motivo pelo qual a Bell Labs conseguiu apenas 30 experts de centenas de garotas que treinou. Helen Harper, tida como a melhor delas nos demonstra nesse vídeo de 1939 o que é capaz de fazer nessa máquina depois de um ano praticando constantemente.
Infelizmente o vídeo está em inglês, mas para os que leram o artigo até aqui é bem fácil compreender como cada função é demonstrada e para os que não leram ainda sim pode ser interessante ouvir o começo da tecnologia de síntese vocal.





Nenhum comentário:

Postar um comentário