IBGE
Soluções de OCR/ICR no Censo 2000
IBGE - Resolvendo problemas com o processo de digitalização para o Censo 2000 do IBGE
IBGE - Um projeto de software livre é uma solução economicamente viável e indicada à realidade do País
Soluções de OCR/ICR no Censo 2000
A Fundação Instituto Brasileiro de Geografia e Estatística, IBGE, escolheu o forms processing, processamento de formulários, para a captação dos dados do Censo Demográfico de 2000. A escolha deveu-se aos benefícios que trazem as tecnologias de OCR, reconhecimento óptico de caracteres, e ICR, reconhecimento inteligente de caracteres. Em junho de 1999, o IBGE promoveu uma concorrência pública visando a consecução do projeto, seleção de software e aplicação de testes-piloto capazes de atingir os níveis de reconhecimento exigidos para os tipos de campos de formulários de coleta. No final de 1999, a Politec foi declarada vencedora para o processamento do Censo 2000. Os testes tiveram lugar no Rio de Janeiro. O projeto prevê que entre três e quatro meses, a Politec deverá processar de 350 a 400 milhões de documentos. A empresa venceu a concorrência oferecendo uma solução baseada na plataforma de software de um de seus parceiros internacionais, o AFPS Pro da TiS – Top Image Systems, empresa baseada em Israel. Os formulários serão preenchidos manualmente nas entrevistas domiciliares, por uma equipe de aproximadamente 160 mil recenseadores, que aplicarão em 90% das residências visitadas o questionário básico, contendo informações resumidas e, nos domicílios restantes, o questionário da amostra escolhida aleatoriamente. Os formulários serão processados em cinco diferentes Centros de Produção, que utilizaram 31 escaners de alta velocidade. A operação envolve uma logística montada pelo IBGE especialmente para o censo, mobilizando cerca de 200 mil pessoas, entre recenseadores, supervisores, coordenadores, técnicos e gerentes em todas as regiões do Brasil. CASE APRESENTADO NA INFOIMAGEM-2000.
IBGE - Resolvendo problemas com o processo de digitalização para o Censo 2000 do IBGE
Toda operação de digitalização seja ela de grande ou pequeno porte, passa por uma fase que tem influência direta no produto final: a preparação. Principalmente quando tratamos grande massa documental, temos que ajustar o preparo do material a velocidade de uma produção de imagens em escala industrial. A boa calibragem dos scanners é fator preponderante para o sucesso numa operação desse tipo, assim como uma perfeita manutenção preventiva e corretiva, limpeza de lentes e outros componentes do equipamento executado ao longo do processo de produção em intervalos regulares. Fatores como umidade do ar, local de armazenagem, transporte e acondicionamento podem interferir no rendimento do trabalho em todas as suas fases. Todos os ajustes devem ser feitos de modo a retirar do equipamento o máximo rendimento dentro das especificações do fabricante. No Censo Demográfico de 2000, tivemos umas das maiores e mais enriquecedoras experiências no que se refere à digitalização de grande massa documental.
IBGE - Um projeto de software livre é uma solução economicamente viável e indicada à realidade do País
O IBGE dispõe de recursos materiais apropriados para executar serviços de digitalização, oriundos da operação realizada para o Censo Demográfico 2000. Estes recursos são: Scanners de produção (31), servidores, estações de trabalho e espaço físico na sua unidade de Parada de Lucas no Rio de Janeiro.
O IBGE por outro lado possui um grande acervo de documentos em papel, alguns de valor histórico e outros guardados por obrigações legais que precisam ser digitalizados para evitar perda do conhecimento da empresa e facilitar seu acesso.
Nesta situação, o instituto tem feito as seguintes ações:
- transformado o acervo em papel em arquivos digitais;
- criando base de dados contendo índices e localização dos arquivos digitais
- desenvolvendo um aplicativo de gerenciamento eletrônico de documentos em plataforma de software livre voltados para WEB
Este trabalho apesar de preliminar já se encontra em funcionamento e vem atendendo gradativamente as necessidades da instituição. Hoje em dia este acervo já possui mais de 130.000 imagens em formato multi-TIFF e PDF, com mais de 80 Gbytes de imagens armazenadas. Praticamente todas as diretorias do instituto já possuem algum acervo digital, alguns deles já se encontram disponíveis na intranet do IBGE. Este projeto possui algumas características positivas, são elas:
1) Atende à recomendação do atual governo
2) Poderia servir a outros órgãos da administração pública, através de pequenas customizações.
3) O conhecimento do produto é todo mantido na instituição.
4) O custo de desenvolvimento e implantação é baixo, comparado com a aquisição de um produto GED de mercado.
Para a o Governo Brasileiro, um projeto de GED em plataforma de software livre se torna uma solução economicamente viável e fortemente indicada à realidade do nosso país.
Data da inclusão deste case: 3 de setembro de 2004
Contato: eromero@ibge.gov.br
<volta>
|