Lenovo e CESAR desenvolvem tecnologia para auxiliar pessoas com deficiência auditiva a se inserirem na sociedade
Projeto conta com uma inovação revolucionária para o uso de Língua Brasileira de Sinais (LIBRAS), patenteada e impulsionada por um mecanismo personalizado de IA e um banco de dados robusto.
Ideia usa a IA para a tradução simultânea. (Foto: Divulgação)
A Lenovo e o CESAR, centro de inovação, criaram uma tecnologia que ajudará na inserção de pessoas com deficiência auditivana na sociedade, por meio de um conjunto de dados de milhares de vídeos de Língua Brasileira de Sinais. Essa é uma nova tecnologia patenteada e desenvolvida para ensinar IA a identificar visualmente e contextualizar gestos individuais.
Foi durante uma discussão interna da equipe da Lenovo em 2019, que uma desenvolvedora de software fluente em Libras e voluntária intérprete em seu tempo livre, destacou muitos desses problemas de acessibilidade e desafiou a Lenovo a fazer mais para melhorar a independência e a qualidade de vida da comunidade surda.
"A Lenovo promete tecnologia mais inteligente para todos, mas como podemos incluir também as pessoas surdas? Todos significam todos”, lembra Hildebrando Lima, Diretor de P&D da Lenovo no Brasil, reforçando que a declaração da desenvolvedora chamou sua atenção.
Inspirada por essa pergunta, a Lenovo começou a pensar em desenvolver uma solução: uma ferramenta de chat para tradução em tempo real do português para a Língua Brasileira de Sinais. A ideia é que a solução permita que pessoas com deficiência auditiva façam sinais para a câmera de um dispositivo enquanto um algoritmo realiza a tradução simultânea para outra pessoa, do outro lado, em texto em português.
Promovendo a inclusão digital
Com o desenho da solução em mente, a Lenovo observou que alcançar a visão ideal de captura de vídeo em tempo real e tradução simultânea entre idiomas não era uma tarefa fácil devido ao grande número de variáveis envolvidas, incluindo os gestos individuais para cada palavra e a sintaxe de cada frase. Compreendendo esse cenário, a Lenovo recorreu à equipe de IA do CESAR para começar a estudar o problema, capturar dados e estabelecer as bases para o desenvolvimento futuro do produto.
"Há vários obstáculos envolvidos apenas na captura de vídeo - incluindo a cor da pele da pessoa, a cor de fundo, a iluminação, a roupa, a velocidade dos gestos do sinalizador e as posições das mãos em relação ao corpo - para citar apenas alguns. Além disso, nem todas as câmeras possuem o mesmo nível de percepção de profundidade. Sabíamos que o CESAR tinha uma equipe de IA excelente com a experiência e o poder de processamento necessários para capturar e analisar essas imagens em tempo real. Esse foi o início da nossa jornada, quase cinco anos atrás", disse Lima.
Desde então, a Lenovo e o CESAR trabalharam para criar o conjunto de dados de milhares de vídeos de Língua Brasileira de Sinais e desenvolveram uma nova tecnologia patenteada para ensinar IA a identificar visualmente e contextualizar gestos individuais. A tecnologia também pode ser utilizada para ensinar a linguagem de sinais a pessoas ouvintes, visto que é possível usar imagens computacionais para rastrear a precisão dos gestos em relação ao banco de dados personalizado em construção.
Assim, em vez de tentar traduzir sinal por sinal, a Inteligência Artificial e o banco de dados em desenvolvimento estão aprendendo a reconhecer posições das mãos, extrapolando dados das curvas das mãos e, principalmente, dos pontos de articulação digital dos ossos do sinalizador. Uma vez que o algoritmo pode reconhecer e processar esses movimentos e gestos rapidamente e com precisão, é possível reconhecer o fluxo de uma frase e traduzi-la para texto.
“No CESAR nós somos especialistas em aprender. Nesse projeto, aprendemos muito a explorar um problema que é quase inacessível: se você olha de longe, começa a se assustar. A gente aprendeu a quebrar o problema, de uma forma que a gente consegue entendê-lo, resolver e entregar valor ao longo de todo o trajeto. O importante é gerar passos intermediários e aprender com experimentação em ciclos cada vez menores, tanto sobre o público quanto sobre a tecnologia. É importante vislumbrar o próximo passo, não o topo da montanha”, diz Willian Grillo, designer de interação do CESAR.
Próximos passos da solução
Até agora, todos os testes e treinamento de algoritmo relacionados foram realizados dentro da Lenovo e do CESAR, e vários colaboradores com deficiência auditiva de ambas as equipes contribuíram para o projeto como treinadores, testadores e participantes de grupos focais.
Por motivos de privacidade, as identidades de todos os voluntários envolvidos no treinamento do sistema de IA são mantidas anônimas; apenas os pontos digitais de gestualização são armazenados como pontos de referência no banco de dados resultante. O próximo passo é escalar o projeto além dos testes internos. Bilhões de pontos de dados adicionais serão necessários para atingir o objetivo desejado de lançar uma interface de tradução de língua de sinais em tempo real.
O CESAR e a Lenovo conseguiram criar a arquitetura necessária para um modelo de tradução ao vivo que funcionará não apenas com a Língua Brasileira de Sinais, mas que poderá ser estendido para outras línguas de sinais ao redor do mundo. Na busca por uma escala mais rápida e desenvolvimento de um produto mínimo viável (MVP), a Lenovo está adaptando essas novas soluções de tradução para verticais específicas, incluindo bancos e varejo, com o objetivo de implementá-las no mundo real em 2024. Por ora, a limitação do trabalho a contextos específicos é intencional, devido ao objetivo de facilitar para a IA se tornar fluente e proporcionar uma boa experiência ao usuário.
Para a Lenovo, a parceria com o CESAR nesse projeto de desenvolvimento de software de longo prazo não se trata apenas de aprimorar seus próprios produtos - trata-se de viver a missão da líder global em tecnologia e ter um impacto maior na promoção da inclusão em todo o mundo.
"O propósito desse projeto vai além do case de negócio. Quando dizemos 'Tecnologia mais inteligente para todos' na Lenovo, não pode ser apenas um slogan. Isso faz parte da nossa missão, e era algo que sabíamos que precisávamos fazer em benefício da comunidade de pessoas com deficiência auditiva, não importando o quê", diz Hidelbrando Lima.