Censo 2022 usará Inteligência Artificial para verificar inconsistências

por | 1 08 2022 | Branded Content, SAS

Censo 22 usará Inteligência Artificial. Crédito-agência Brasil

Os primeiros resultados serão divulgados ainda este ano. Crédito-Agência Brasil.

Começou no dia 1º de agosto a coleta do XIII Censo Demográfico 2022- o Censo 2022. E este ano, o IBGE irá utilizar recursos de Inteligência Artificial para verificar inconsistências fornecidas pelos pesquisados.  Serão feitas visitas pelos recenseadores de cerca de 89 milhões de endereços, sendo 75 milhões de domicílios, nos 5.568 municípios do país, no Distrito Federal e no Distrito Estadual de Fernando de Noronha, incluindo também aldeias indígenas e territórios quilombolas.

O censo demográfico é a principal fonte de referência para o conhecimento das condições de vida da população. É por meio do Censo 2022 que saberemos quantos somos, como somos e de que forma vivemos nas áreas urbanas e rurais do país.

O censo seria realizado em 2020, mas, devido à pandemia, foi adiado para 2021, ano em que também não ocorreu por falta de orçamento. Após determinação do Supremo Tribunal Federal (STF), o governo federal liberou os R$ 2,3 bilhões necessários para a realização da operação censitária.

Além de levantar o real contingente de nossa população – estimada, atualmente, em 215 milhões de habitantes -, o Censo 2022 vai tirar uma fotografia detalhada dos brasileiros, mostrando suas principais caraterísticas socioeconômicas: idade, sexo, cor ou raça, religião, escolaridade, renda, saneamento básico dos domicílios etc.

Pela primeira vez, os moradores de territórios quilombolas serão contabilizados. A coleta domiciliar nas áreas indígenas começa em 10 de agosto, e a nos territórios quilombolas, em 17 de agosto. Os primeiros resultados do Censo 2022 estão previstos para serem divulgados ainda no final do ano.

Para suportar a operação censitária, o processamento das informações do Censo Demográfico 2022 foi garantido com um robusto data center de classe mundial, tier III, preparado pelo IBGE, desde 2019, para rodar exclusivamente os dados do Censo, sem afetar o ambiente de produção das demais pesquisas regulares.

Computação na nuvem, bancos de dados de alta performance, segurança com criptografia, links de fibra óptica redundantes e ambiente duplicado para recuperação de desastre são alguns dos recursos que compõem a infraestrutura tecnológica dedicada ao processamento do censo. Serão 200 máquinas virtuais, adquiridas nos últimos dois anos, rodando numa nuvem privada nacional.

Inteligência Artificial

José Luiz Thomaselli, coordenador de Serviços de Informática do IBGE, informa que, entre as inovações, está o uso da inteligência artificial para a crítica de dados fornecidos pelos moradores a fim de identificar inconsistências. Ele explica que, como a coleta é em tempo real, todo dado transmitido entra no data center da rua General Canabarro, no bairro do Maracanã no Rio de Janeiro, ou no da rua Urussuí, no bairro do Itaim, em São Paulo, e logo em seguida dá carga numa base de dados a que os técnicos têm acesso para verificar consistência e rodar programas de crítica.

Em paralelo, há uma estrutura de data lake, onde os técnicos rodam programas de Business Inteligence e analytics, que avaliam inconsistências. Existem processos automatizados que verificam a base que está sendo gerada e fazendo comparações com outras pesquisas do IBGE, como o Censo 2010, criando alertas sempre que se percebe algo estranho.

“Isso vai gerar dashboards com gráficos que irão orientar o acompanhamento da coleta. Além disso, vamos utilizar o SAS, ferramenta estatística muito usada na diretoria de pesquisa, que permite rodar queries para verificar se a informação que está vindo é consistente, ao se deparar com fatos estranhos, como uma criança de dez anos “aposentada”. Também usamos a linguagem R, voltada à manipulação, análise e visualização de dados. E adotamos uma solução de inteligência artificial desenvolvido pelos técnicos do IBGE para codificação”, esclarece Thomaselli.

No caso dos recursos de inteligência artificial, outra grande aplicação é um sofisticado sistema de codificação criado para agregar e simplificar dados não estruturados sobre atividade, ocupação, indígenas e possivelmente religião. Como cada um responde esses quesitos de uma forma e até mesmo com grafias diferentes, é preciso padronizar esses registros no processo de codificação.

A solução foi desenvolvida e treinada por um algoritmo, resultado da pesquisa de mestrado de Arthur Beltrão Castilho Neto, analista de sistemas da diretoria de informática. Ele usou recursos de processamento de linguagem natural e a biblioteca de software livre Malibu.

“Uma parte do treinamento foi preparada pelo sistema interno, e, após os dados serem preparados, são rodados na biblioteca, gerando uma série de estatísticas de uma variável como ocupação, além de outras 30 variáveis para que a máquina entenda a relação entre elas e classifique a variável alvo”, explica Castilho Neto.

Sistema de Codificação

Cristiane Oliveira, gerente de Sistemas Populacionais e Sociais, informa que, na pesquisa social PNAD Contínua, já existe um sistema de codificação para ajudar a definir os atributos que serão aprendidos pela máquina. Há críticas utilizadas no aprendizado de máquina para que a IA entenda qual a melhor escolha para codificação, um trabalho iniciado em 2018.  Cerca de 20 variáveis passarão pelo processo de codificação, embora apenas quatro serão realizadas de forma automática pela IA.

“Temos um conjunto de variáveis que, depois de realizada a coleta, transformaremos o campo aberto literal, escrito das mais diversas formas, para verificar, por meio de críticas e vários atributos que a máquina aprendeu, se a informação está consistente e realizar a primeira etapa da codificação automática fornecendo um número. Esses códigos facilitam o processo de análise”, explica Cristiane.

Ela destaca que existia a possibilidade de se assumir 100% do resultado da machine learning, mas a equipe técnica do censo optou por uma segunda etapa baseada em codificação assistida, para se identificar algum item que a máquina ainda não tenha entendido. Cristiane ressalta que o uso desses recursos no Censo 2022 permitirá ao IBGE um aprendizado do processo de codificação, que depois passará a integrar outros sistemas.

“Os testes têm dado bons resultados e vêm sendo acompanhados pela coordenação técnica do censo demográfico. Em 2020, participamos de discussões com o Grupo de Classificação da Comissão Econômica para a América Latina e o Caribe (Cepal) que está começando a pesar em fazer uso da IA, o que sinaliza que o IBGE está na vanguarda”, diz Cristiane.

“Usando os dados do Censo 2010, o acerto foi de 85%. Quando esse processo for para a análise, usaremos uma técnica de similaridade para identificar os 15% que não tiveram acerto e irão para a codificação assistida”, explica Arthur Castilho.

O Censo 2022 será o primeiro 100% digital. Além da coleta, já digitalizada no Censo 2010, toda a contratação, o monitoramento e o pagamento dos recenseadores, agentes censitários supervisores (ACS) e agentes censitários municipais (ACM) serão digitalizados e realizados nos postos de coleta e nas subáreas. O Dispositivo Móvel de Coleta (DMC)  do Censo Demográfico 2022 é um smartphone que conta com a lista prévia de endereços e uma intensa utilização de sistemas georreferenciados.

Os DMCs são dotados de chips 3G e 4G para transmissão direta para os data centers do Rio de Janeiro e de São Paulo. Caso não haja sinal das redes móveis, o recenseador pode transmitir de qualquer lugar com conexão WiFi. As equipes nas unidades estaduais e na sede, no Rio de Janeiro, já podem avaliar o conteúdo e eventualmente solicitar uma correção. O gerenciamento da coleta passa a ser em tempo real, inclusive do deslocamento do recenseador pelo monitoramento das coordenadas.

Outra inovação é a captação das coordenadas de todos os domicílios brasileiros. Quando chegar ao domicílio, o recenseador captará, pela primeira vez, as coordenadas geográficas do endereço e registrará o CPF do morador que está respondendo à pesquisa. Isso permite que a coordenada seja associada ao CPF, o que gera outro benefício de segurança para pesquisas futuras. Com isso, o IBGE passa a contar com as coordenadas de todos os domicílios brasileiros. Cabe ressaltar que o nome do entrevistado e seu CPF não são disponibilizados ao recenseador, conforme o princípio da confidencialidade, que estabelece que os dados devem ser usados exclusivamente para fins estatísticos.

Infraestrutura tecnológica 

Foram contratados:

  • 183.538 dispositivos móveis de coleta (DMCs);
  • 4.700 baterias externas;
  • 7.898 laptops coleta (posto de coleta);
  • 1.573 laptops supervisão (subárea);
  • 570 desktops área 1.715 desktops (administrativo/técnico);
  • 28.584 tablets;
  • 1.921 impressoras;
  • 7.484 conexões de banda larga fixa e roteadores sem fio;
  • 208.628 chips de dados e voz;
  • 7.484 minimodems de banda larga móvel;
  • 1.012 antenas VSAT e 30 antenas BGAN.