você está aqui: Home  → Arquivo de Mensagens

O Formato Deja Vu

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 12 de Junho de 2003

Recentemente eu estive na USP, onde tive a oportunidade de assistir a uma palestra do Prof. Imre Simon, do IME. Nesta palestra ele nos mostrou um novo formato para digitalização de documentos chamado "Deja Vu".

Djvu é um formato para distribuição de documentos com foco na web. Pode substituir com vantagens formatos como PDF, PS, TIFF, etc para a distribuição de documentos scaneados, documentos digitais ou imagens de alta resolução.

O Prof. Imre nos mostrou um exemplo do uso deste formato por meio de um livro chamado "Aspectos Teóricos da Computação", escrito por Cláudio L. Lucchesi, Imre Simon, Istvan Simon, Janos Simon e Tomasz Kowaltowski. O livro foi digitalizado e convertido para o formato Djvu.

O livro digitalizado, em formato PDF, ocupa 20MB, já o mesmo livro, no formato djvu ocupa apenas 4MB, um quinto do total. Outra grande vantagem em relação a outros formatos, o download não é feito do documento inteiro, mas de suas partes. No caso do PDF você só consegue ver o documento após o download dos 40MB. Já com o djvu as páginas são carregadas individualmente, o que gera um tempo de espera equivalente à carga de uma página html normal, talvez um pouco mais.

Outra coisa interessante, acoplando-se o djvu a um software de reconhecimento de caracteres, é possível fazer busca textual. O software de OCR empregado pelo Prof. Imre em seu livro foi o Clara OCR, que embora ainda não faça um reconhecimento 100% dos caracteres, certamente contribui para exibir inequivocamente a eficácia de tal solução.

O software realmente é fantástico e o número de aplicações possíveis e imagináveis é enorme.

Todo o software usado no processo descrito é software livre, o que inclui todos os utilitários necessários para criar e manusear o formato djvu.

Para saber mais, veja a página do projeto em http://djvu.sourceforge.net/

A página do Prof. Imre Simon, da USP, onde se pode ver o software em ação fica em http://www.ime.usp.br/~is/atc/index.html

O software Clara OCR, desenvolvido por Ricardo Ueda (http://www.ime.usp.br/~ueda/), é licenciado sob a GPL e pode ser baixado no endereço http://www.claraocr.org/



Veja a relação completa dos artigos de Rubens Queiroz de Almeida

 

 

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script