E alcançamos o primeiro lugar no setor ao possibilitar a inclusão de informações sobre a localização posicional e o tamanho relativo dos elementos em uma foto. Portanto, em vez de descrever o conteúdo de uma foto como “Pode ser uma imagem de 5 pessoas”, podemos especificar que há duas pessoas no centro da foto e outras três espalhadas nas bordas, o que implicaria que as duas no centro são o foco. Ou em vez de simplesmente descrever uma bela paisagem com “Pode ser uma casa e uma montanha”, podemos destacar que a montanha é o objeto principal em uma cena, com base em quão grande ela parece comparada à casa em sua base.
Juntos, esses avanços ajudam os usuários com deficiência visual a entender melhor o que há nas fotos publicadas por familiares e amigos — e em suas próprias fotos — fornecendo mais (e mais detalhadas) informações.
Onde começamos – O conceito de “texto alternativo” remonta aos primórdios da Internet, quando conexões dial-up lentas tinham uma alternativa de texto para download de imagens que exigiam muita largura de banda. Naturalmente, o texto alternativo também ajudou as pessoas com deficiência visual a navegar na internet, uma vez que pode ser usado por um software leitor de tela para gerar descrições de imagens faladas. Infelizmente, as velocidades mais rápidas de Internet tornaram o texto alternativo uma prioridade menor para muitos usuários. E como essas descrições precisavam ser adicionadas manualmente por quem carregou uma imagem, muitas fotos começaram a não apresentar nenhum texto alternativo — sem recurso para as pessoas que contavam com ele.
Há cerca de cinco anos, aproveitamos a expertise em visão computacional do Facebook para ajudar a resolver esse problema. A primeira versão do AAT foi desenvolvida usando dados rotulados por humanos, com os quais treinamos uma rede neural convolucional profunda usando milhões de exemplos de forma supervisionada. Nosso modelo AAT concluído poderia reconhecer 100 conceitos comuns, como “árvore”, “montanha” e “ao ar livre”. E como os usuários do Facebook costumam compartilhar fotos de amigos e familiares, nossas descrições de AAT usavam modelos de reconhecimento facial que identificavam pessoas (contanto que essas pessoas dessem consentimento explicitamente). Para os usuários com deficiência visual, este foi um grande avanço.
Enxergando mais do mundo – Mas sabíamos que o AAT poderia fazer mais, e o próximo passo lógico era expandir o número de objetos reconhecíveis e refinar como os descrevemos.
Para alcançar isso, abandonamos o aprendizado totalmente supervisionado com dados rotulados por humanos. Embora esse método forneça precisão, o tempo e o esforço envolvidos na rotulagem de dados são extremamente altos — e por que nosso modelo AAT original reconhecia apenas 100 objetos de forma confiável. Reconhecendo que essa abordagem não seria escalável, precisávamos de um novo caminho a seguir.
Para a versão mais atualizada do AAT, maximizamos um modelo treinado em dados parcialmente supervisionados na forma de bilhões de imagens públicas do Instagram e suas hashtags. Para fazer nossos modelos funcionarem melhor para todos, nós os ajustamos para que os dados se tornassem amostras a partir de imagens em todas as geografias, e usando traduções de hashtags em muitos idiomas. Também avaliamos nossos conceitos sobre gênero, tom de pele e idade. Os modelos resultantes são mais precisos, além de cultural e demograficamente inclusivos — por exemplo, eles podem identificar casamentos em todo o mundo com base (em parte) em trajes tradicionais, em vez de rotular apenas fotos com vestidos de noiva brancos.
Isso também nos deu a capacidade de reaproveitar mais prontamente os modelos de aprendizado de máquina como o ponto de partida para o treinamento em novas tarefas – um processo conhecido como aprendizado por transferência. Isso nos permitiu criar modelos que identificaram conceitos como monumentos nacionais, tipos de comida (como arroz frito e batatas fritas) e selfies. Todo esse processo não teria sido possível no passado.
Para obter informações mais ricas como posição e contagens, também treinamos um detector de objetos de dois estágios, o Faster R-CNN, usando Detectron2, uma plataforma de código aberto para detecção e segmentação de objetos desenvolvida pelo Facebook AI Research. Treinamos os modelos para prever localizações e rótulos semânticos dos objetos em uma imagem. Técnicas de treinamento com múltiplos rótulos/conjuntos de dados múltiplos ajudaram a tornar nosso modelo mais confiável com o espaço de rótulo maior.
A versão melhorada do AAT reconhece de forma confiável mais de 1.200 conceitos — 10 vezes mais que a versão original que lançamos em 2016. Conforme consultamos os usuários de leitores de tela sobre o AAT e como melhor aprimorá-lo, eles deixaram claro que a precisão é primordial. Para isso, incluímos apenas conceitos em que poderíamos garantir modelos bem treinados que atendessem a um certo alto patamar de precisão. Embora haja uma margem de erro, e por isso começamos todas as descrições com “Pode ser”, elevamos a régua e omitimos intencionalmente conceitos que não podíamos identificar de forma confiável.
Queremos dar aos nossos usuários cegos e com deficiência visual o máximo de informações possível sobre o conteúdo de uma foto — mas informações corretas.
Entregando detalhes – Tendo aumentado o número de objetos reconhecidos, mantendo um alto nível de precisão, voltamos nossa atenção para descobrir a melhor forma de descrever o que encontramos em uma foto.
Perguntamos aos usuários que dependem de leitores de tela quantas informações eles queriam ouvir e quando eles queriam ouvi-las. Eles queriam mais informações quando uma imagem era de amigos ou familiares, e menos quando não era. Projetamos o novo AAT para fornecer uma descrição sucinta para todas as fotos por padrão, mas oferecer uma maneira fácil de solicitar mais detalhes em fotos de interesse específico.
Quando os usuários selecionam essa última opção, é apresentado um painel que fornece uma descrição mais abrangente do conteúdo de uma foto, incluindo uma contagem dos elementos na foto, alguns dos quais podem não ter sido mencionados na descrição padrão. Descrições detalhadas também incluem informações posicionais simples — superior/no meio/inferior ou esquerda/centro/direita — e uma comparação da proeminência relativa dos objetos, descrita como “primários”, “secundários” ou “minoritário”. Essas palavras foram especificamente escolhidas para minimizar a ambiguidade. Feedbacks sobre a ferramenta durante o desenvolvimento mostraram que usar uma palavra como “grande” para descrever um objeto pode ser confuso porque não está claro se a referência é ao seu tamanho real ou em relação a outros objetos em uma imagem. Até um chihuahua parece grande se for fotografado de perto!
O AAT usa frases simples para a descrição padrão, em vez de uma frase longa e fluida. Não é poético, mas é altamente funcional. Nossos usuários podem obter a descrição de maneira ágil — e isso nos permite traduzir fácil e rapidamente nossas descrições de texto alternativo em 45 idiomas diferentes, incluindo em português, garantindo que o AAT seja útil para pessoas em todo o mundo.
O Facebook é para todo mundo – Todos os dias, nossos usuários compartilham bilhões de fotos. A onipresença de câmeras acessíveis em telefones celulares, conexões sem fio rápidas e mídias sociais como Instagram e Facebook tornaram mais fácil capturar e compartilhar fotografias, sendo uma das formas mais populares para se comunicar — inclusive para pessoas cegas e com deficiência visual. Embora desejemos que todos que publiquem uma foto incluam uma descrição em texto alternativo, reconhecemos que isso geralmente não acontece.
Construímos o AAT para preencher essa lacuna, e o impacto que isso tem sobre aqueles que precisam é incomensurável. A IA promete avanços extraordinários e estamos entusiasmados com a oportunidade de levar esses avanços às comunidades que, muitas vezes, são mal atendidas.
Link da matéria completa: https://brasil.estadao.com.br/blogs/vencer-limites/facebook-atualiza-recurso-de-acessibilidade-para-pessoas-com-deficiencia-visual/?utm_source=estadao:whatsapp&utm_medium=link