Reconhecimento da voz no Google: ensinando o seu telefone a falar e a ouvir

Quarta-feira, Fevereiro 23, 2011 2/23/2011 12:19:00 PM


Esta é a postagem mais recente na nossa série (link em inglês) de perfis de empreendedores Googlers que trabalham em produtos na empresa e ao redor do mundo. Desta vez, você conhecerá os bastidores da construção, por um Googler, da equipe que desenvolveu a tecnologia de reconhecimento de voz por trás de produtos, como as transcrições do YouTube e a pesquisa por voz. - Editor

Quando consegui minha primeira entrevista no Google, em 2004, o celular estava começando a se tornar importante para a empresa. A minha paixão era a tecnologia de reconhecimento da fala, setor em que trabalhei por vinte anos. Depois de dez anos de pesquisa sobre reconhecimento de voz na SRI, seguidos de mais dez anos construindo a Nuance Communications, empresa que cofundei em 1994, estava pronto para um novo desafio. Sentia que os celulares estavam no momento ideal para inovações e destinados a ser uma plataforma importante na distribuição de serviços. E havia a necessidade de desenvolver a tecnologia de reconhecimento de voz.

Na minha entrevista, falei sobre o meu desejo de atuar na área de celulares. E que se o Google não tivesse grandes planos para celulares, então eu não me encaixaria na empresa. Bem, consegui o emprego e comecei logo depois, sem uma equipe e nem uma função bem definida. Ao clássico estilo Google, fui encorajado a explorar a empresa, a conhecer o trabalho das várias equipes e a descobrir onde precisavam de mim.

Depois de alguns meses, apresentei à direção a ideia de criar uma interface de voz baseada no telefone para a pesquisa local. Apesar de haver várias opiniões sobre quais aplicações eram mais adequadas ao Google, todos na reunião concordaram que eu deveria montar uma equipe centralizada na tecnologia de reconhecimento de voz. Com a ajuda de dois colegas que também tinham experiências com o reconhecimento de voz, comecei o recrutamento. Em poucos meses, estávamos criando o nosso próprio sistema de reconhecimento de voz.

Seis anos depois, estou empolgado com o caminho que já percorremos, o que, por sua vez, ampliou nossas metas a longo prazo. Quando comecei, eu tinha que convencer as outras equipes sobre o valor da tecnologia de reconhecimento de voz para os objetivos do Google. Agora, as outras equipes diariamente me trazem ideias e novas demandas para o reconhecimento de voz. O maior desafio é dimensionar o nosso trabalho para atender às oportunidades. Avançamos desde o GOOG-411, nosso primeiro serviço baseado no reconhecimento de voz, para a Pesquisa por voz, Entrada de voz (site em inglês), Ações por voz (site em inglês), uma API de voz (site em inglês) para desenvolvedores Android, legendagem automática de vídeos do YouTube (site em inglês), transcrição automática de correio de voz para o Google Voice (site em inglês) e tradução de fala para fala (site em inglês), entre outros. Apenas no ano passado, convertemos nossa tecnologia para mais de vinte idiomas.

A tecnologia de reconhecimento de voz requer uma enorme quantidade de dados para abastecer nossos modelos estatísticos e muito poder de processamento para treinar nossos sistemas. O Google é o lugar ideal para se ir atrás de abordagens técnicas como essa. Com grandes quantidades de dados, poder de processamento e uma infraestrutura centrada no suporte de serviços em grande escala, somos motivados a lançar novos produtos rapidamente e a refazer tudo com base no feedback em tempo real.

Tenho explorado a tecnologia do reconhecimento de voz por quase três décadas, mas ainda assim enxergo grande potencial para mais inovações. A nossa visão é de uma interface para a comunicação por voz e texto que derrube todas as barreiras dos sentidos e do idioma, para fazer com que a informação seja verdadeiramente de acesso universal. E acho que é aqui no Google que temos a melhor oportunidade de fazer desse futuro uma realidade.

Atualização: O título desta postagem não é tão adequado. A tecnologia de reconhecimento de voz não é usada somente em celulares, mas também em tarefas como transcrição de vídeos do YouTube e de correio de voz.


Postado por: Mike Cohen, Gerente, Tecnologia de Voz

1 comments:

encarregado disse...

Alguma idéia de quando os comandos por voz estarão disponíveis em português no Android?