People looking through a wall of digital images

Agentes da mudança

Raja Bala: Vislumbrar um futuro melhor

A curiosidade inata de Raja sobre como as coisas funcionam tornou-o um dos nossos inventores mais prolíficos.

Explorar o poder da visão computacional

Raja Bala é o cientista chefe na divisão de Computer Vision do PARC, uma empresa do universo Xerox. Durante os dois períodos em que trabalhou na Xerox, a curiosidade inata de Raja acerca de como as coisas funcionam transformou-o num dos nossos inventores mais prolíficos. Dotou-o ainda com uma perspetiva única da forma como a visão computacional irá mudar o nosso modo de vida.

E se uma selfie fosse suficiente para diagnosticar uma doença? E se pudesse ir e voltar do trabalho sem tocar no volante? E se pudesse ir ao supermercado, escolher os artigos que deseja e sair sem esperar na fila das caixas, uma vez que a despesa é debitada automaticamente na sua conta à ordem?

Isto não é ficção científica. É o mundo que Raja Bala está a ajudar a construir. Um mundo em que os computadores podem ver, interpretar e analisar o que os rodeia e utilizar essa informação para tomarem decisões em tempo real e ajudarem a resolver problemas reais. Junte-se a nós enquanto descobrimos o homem por detrás da tecnologia.

Como nasceu o seu interesse pela visão computacional?

A matemática e a ciência foram sempre temas centrais em minha casa. A minha mãe era professora de ciência. O meu pai era engenheiro. Embora sempre tenha gostado da matemática, e tenha algum talento, nunca fui uma pessoa completamente dominada pelo «hemisfério esquerdo». Sou músico. Adoro arte. Por isso, quando escolhi uma carreira, queria encontrar algo que satisfizesse todos os meus interesses.

A visão computacional não foi a minha primeira escolha. Quando comecei a trabalhar na Xerox em 1993, fui contratado como cientista para a área de imagens a cores. Na altura, a Xerox estava a transitar da impressão a preto e branco para a impressão a cores. Fui chefe de vários projetos empolgantes para o desenvolvimento de soluções de gestão da cor para as impressoras e scanners da Xerox. Foi só em 2011, depois de um processo de aquisição, que descobri a oportunidade e o potencial da visão computacional. Fiz a transição e o resto é história.

Poderia dizer-nos o que é a visão computacional e explicar a sua importância nos dias de hoje?

A visão computacional é a ciência pela qual as máquinas analisam, interpretam e extraem informações úteis de imagens e vídeos para depois resolverem problemas reais. No nosso trabalho, eu e a minha equipa procuramos pegar numa imagem digital ou num vídeo, transformá-los numa representação matemática que um computador entenda e, depois, ensinar o computador a realizar uma tarefa utilizando esta representação (por exemplo, detetar se uma imagem contém um rosto ou não).

Embora a visão computacional exista desde a década de 1960, esteve inicialmente limitada pela falta de disponibilidade e acesso a imagens digitais. A análise de imagens foi relegada para fins especializados, por exemplo na medicina, e nunca teve exposição massificada. Contudo, com a chegada dos smartphones e com empresas como a Google e Facebook a facilitarem o acesso a imagens com grandes bases de dados pesquisáveis, o estatuto, a importância e a penetração da visão computacional nos mercados de consumo em massa explodiram. A abundância de dados de imagem e vídeo gerados pelos consumidores, em conjunto com os algoritmos e hardware avançados disponíveis para o seu processamento, está a mudar a nossa perspetiva sobre este campo.

Ainda existem desafios a ultrapassar pela visão computacional, apesar destes avanços?

Neste momento, as pessoas estão muito empolgadas com a aprendizagem profunda e a sua aplicação à visão computacional. A aprendizagem profunda é uma forma muito eficaz de extrair padrões úteis de imagens. Passa por alimentar uma rede neuronal com imensos exemplos de imagens e um padrão ou uma verdade associada às imagens. A rede depois aprende uma série de ligações e pesos que lhe permitem identificar o mesmo tipo de padrão ou verdade em imagens novas.

Quando dispomos de um grande conjunto de dados, a aprendizagem profunda pode ser decisiva. Uma deep network consegue entender padrões e relações extremamente complexas em imagens e realiza as tarefas para as quais foi treinada com enorme sucesso. Contudo, um problema fundamental é o facto do sucesso da aprendizagem profunda depender da disponibilidade de conjuntos de dados com milhões de imagens e as suas etiquetas sobre a verdade no terreno. E muitas aplicações não têm acesso a tantas imagens e etiquetas.

Por exemplo, no campo da medicina, poderemos pretender usar a aprendizagem profunda para diagnosticar uma doença específica. Isto significa treinar a deep network com milhões de imagens de órgãos que apresentam a doença em estádios diferentes. Este tipo de volume simplesmente não existe. E mesmo que existisse, a etiquetagem das imagens por um grupo de especialistas clínicos seria demasiado cara.

Por isso, a pergunta frequente é: Como podemos abordar esta questão de forma criativa? Como podemos modificar a aprendizagem profunda para tomar decisões inteligentes com base em treino limitado?

Acabámos por recuar aos modelos de primeiros princípios com que trabalhávamos antes da era da aprendizagem profunda e utilizamo-los para construir conhecimento e inteligência prévios sobre a tarefa e o ambiente, na deep network. Por exemplo, para ensinar uma deep network a reconhecer vasos sanguíneos em imagens da retina introduzimos dicas na rede para que procurasse estruturas curvas finas com ramos como uma árvore. Com estas dicas, a rede precisa de muito menos imagens para treino e até apresenta melhor desempenho do que os melhores métodos de aprendizagem profunda da atualidade.

Nem sempre trabalhou para a Xerox, certo?

Certo. Depois de 22 anos na Xerox, decidi testar os meus limites num novo ambiente. Trabalhei para o grupo de imagens de câmara para os smartphones da Samsung no desenvolvimento de técnicas de imagem computacional para os aparelhos Galaxy e Note.

O que aprendeu com a experiência?

Um novo apreço pela simplicidade. A maioria dos produtos da Xerox é usada num ambiente de escritório, onde podemos contar com pelo menos alguma familiaridade com a tecnologia. Mas quase todas as pessoas têm um smartphone. Quando se trabalha nesse tipo de produto de consumo, temos de considerar todos os níveis de experiência com a tecnologia. Criar algo que é fácil de utilizar seja qual for o nível de experiência. Alcançar este nível de simplicidade demora horas. Garantir que cada clique faz exatamente o que deve é um processo muito trabalhoso.

Ao regressar ao ambiente de investigação da Xerox, sei o que é preciso para transformar ciência excelente num produto com impacto. Podes conseguir publicar um ensaio excelente sobre a tua investigação. Mas se queres que a tua investigação resulte num produto que os consumidores finais conseguem utilizar, este tem de ser à prova de erros, simples e tão intuitivo quanto possível. Tens mesmo de fazer um esforço extra.

Imaginemos que estamos a trabalhar numa aplicação móvel para a digitalização inteligente de documentos. Tradicionalmente, a visão computacional exige um enorme poder de processamento; e um dispositivo móvel não tem muito disponível. Por isso, para que a tua solução seja mais do que um exercício académico, tens de torná-la precisa, rápida e com eficiência energética. Ou as pessoas não a vão utilizar.

Qual dos seus projetos teve um maior impacto no mundo?

A minha equipa colaborou com a Procter & Gamble para criar a visão computacional e tecnologia de aprendizagem automática por detrás do «Olay Skin Advisor». Esta é uma plataforma móvel que capta uma selfie do consumidor, analisa o seu rosto e oferece recomendações sobre produtos para o cuidado da pele.

O ideal seria que os consumidores pudessem falar com um dermatologista sobre os seus problemas de pele. Mas isso é caro. E sendo que os cuidados com a pele são contínuos, a maioria das pessoas não tem dinheiro para isso. E se cuidarmos da nossa pele sem ajuda? Basta ir a uma loja especializada. Existem centenas de produtos. É frustrante, confuso e fácil tomar a decisão errada. Menos de dois terços das mulheres sabem que produtos são melhores para o seu tipo de pele.

A P&G queria resolver este problema com um navegador de cuidados de beleza personalizado e a baixos custos. Por isso, desenvolvemos uma aplicação móvel fácil de utilizar. Pensámos: E se aproveitássemos a câmara de alta qualidade que os consumidores têm sempre consigo?

Para utilizar a aplicação, o consumidor tira uma selfie do rosto. A imagem é analisada com visão computacional para decidir se tem qualidade suficiente para uma análise dermatológica; verifica-se a iluminação, distância, expressão facial e ausência de obstruções. Se a imagem passar todos os testes, a aplicação analisa a pele do consumidor, apresenta informação sobre o que lhe está a acontecer e sugere produtos e mudanças de regime.

Temos mais de um milhão de utilizadores ativos e o website foi visitado cinco milhões de vezes desde o lançamento da aplicação.

Que área da visão computacional deixa-o mais empolgado em relação ao futuro?

A visão computacional e o campo mais alargado da IA são excelentes opções de trabalho hoje em dia. Este campo só recentemente alcançou a maturidade suficiente para começar a ter um impacto real, significativo e generalizado no mundo, desde tarefas rotineiras como depósitos automáticos de cheques com a câmara do smartphone a grandes aplicações como a condução autónoma e o diagnóstico precoce de doenças. São muitas as aplicações e o seu número está sempre a aumentar. E existem imensos desafios científicos e de engenharia ainda por resolver no que diz respeito a tornar estas aplicações precisas e fiáveis.

Mas, pessoalmente, o que mais me empolga é continuar o nosso trabalho para criar métodos de visão computacional que recorrem a modelos prévios do mundo e aprendem com exemplos de dados. Os modelos abarcam de tudo, do nosso trabalho com os vasos sanguíneos da retina a conhecimento geral sobre objetos do dia-a-dia, pessoas e leis da natureza. Graças ao ambiente rico e estimulante que a Xerox oferece para a inovação, estamos na vanguarda da transposição destes modelos do mundo real para métodos de aprendizagem automática direcionados pelos dados, para criar uma forma de aprendizagem híbrida. Não consigo imaginar um lugar mais empolgante onde trabalhar.

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Agentes da mudança

Todos nós mudámos o mundo. Todos nós. Cada gesto que fazemos tem infinitas repercussões sobre o mundo.

Mas poucos de nós têm a oportunidade de transformar muitas vidas para melhor. E menos ainda são desafiados a fazê-lo todos os dias. Esse é o desafio lançado diariamente aos cientistas de investigação da Xerox: procurar gerar a mudança.

Em troca, oferecemos-lhes tempo e espaço para sonhar. E os recursos para tornarem esses sonhos realidade: quer estejam a inventar novos materiais com funções assombrosas ou a utilizar a realidade aumentada para melhorar a memória de doentes com Alzheimer.

Temos orgulho nos nossos Agentes da mudança, presentes nos centros de investigação da Xerox em todo o mundo. Eis algumas das suas histórias.

Ligações Rápidas

Sobre a Xerox

Nossa história de inovação

Notícias sobre inovação e pesquisas

Mais histórias de inovação

Produtos Xerox

Serviços Xerox

Partilhe