De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.


Arquivamento e indexação de documentos digitais

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 23 de Janeiro de 2006

A Biblioteca Digital da Unicamp é hoje um importante portal para a disseminação do conhecimento gerado na universidade. Segundo dados de janeiro de 2006, estão disponíveis para download cerca de 6307 teses e dissertações e aproximadamente 13.000 outros tipos de documentos (periódicos eletrônicos, material de congressos, seminários e outros).

Esta biblioteca utiliza o sistema Nou-Rau para armazenamento e indexação de documentos digitais. Este sistema foi planejado originalmente para possibilitar a criação de repositórios digitais, mantidos por voluntários através da Internet.

De forma resumida, a funcionalidade do sistema Nou-Rau consiste em receber documentos digitais em diversos formatos, convertê-los para texto puro e, em seguida, indexá-los com o software htdig, que é também usado para fazer consulta à base de dados. Este indexador, que é uma das partes mais importantes do sistema, foi também utilizado por muitos anos para fazer a indexação dos websites da Unicamp, e provou sua funcionalidade em diversas situações. O htdig, quando consultado, retorna uma página onde os documentos são analisados em relação à sua relevância quanto às palavras-chave fornecidas. Durante o processo de cadastramento de um documento no sistema Nou-Rau, é necessário fornecer algumas informações que serão utilizadas mais tarde na criação do índice do sistema, como nome do autor, palavras-chave, descrição do documento. O índice criado pelo htdig é composto por esta página de informações e do texto completo do documento digital. Na busca realizada pelo htdig, as informações de cadastro do documento têm relevância superior à do seu conteúdo.

O sistema Nou-Rau possui uma estrutura hierárquica de tópicos. O administrador do sistema tem várias opções de configuração para cada tópico. Cada tópico pode ser configurado para aceitar arquivos em um formato pré-determinado (PDF, Postscript, planilhas, etc.) e também pode impor limites ao tamanho desses documentos.

Como o sistema foi projetado para ser usado através da Internet, de forma colaborativa (onde a maior parte dos colaboradores não são conhecidos), foi desenvolvido um sistema de aprovação de documentos. Os documentos podem ser inseridos no sistema por voluntários que tenham realizado seu cadastro. Após a submissão, os documentos ficam aguardando a aprovação de um dos mantenedores do sistema. Este passo é necessário para evitar que o repositório digital veicule documentos protegidos por direito autoral. Adicionalmente, documentos sujeitos a infecção por vírus, precisam passar por um passo adicional: a inspeção por um software antivírus. Somente após estas verificações, o documento é publicado.

Como seu desenvolvimento original previa sua ampla utilização em diversos contextos, evitou-se oferecer um número excessivo de recursos que tornassem seu uso e configuração complicados. O objetivo básico foi apenas oferecer um sistema computadorizado para armazenar e indexar o conteúdo de documentos digitais. Sua utilização pela Unicamp no projeto de sua biblioteca digital manteve praticamente intacto seu núcleo principal. Foram acrescentados módulos que permitiram a comunicação do sistema Nou-Rau com sistemas de bibliotecas tradicionais. O sistema Nou-Rau possui hoje módulos que lhe permitem a comunicação através do protocolo Z39.50, que é um padrão norte-americano que estabelece regras para que dois sistemas se comuniquem e troquem informações. Com este novo módulo, o sistema Nou-Rau realiza a captura da informação de cadastro de uma tese ou dissertação diretamente do sistema de bibliotecas da Unicamp, evitando desta forma a redigitação das informações de cadastro do documento.

Dentro da Unicamp, o sistema Nou-Rau é utilizado em dois outros projetos: a biblioteca de documentos sobre software livre e a biblioteca da equipe de suporte técnico ao ensino a distância.

As aplicações possíveis do sistema Nou-Rau são imensas. Pode ser usado em qualquer situação onde se necessite armazenar e consultar o conteúdo de documentos digitais. Em intranets, armazenando documentos técnicos, atas de reuniões, projetos, discussões, documentos pessoais, em escolas, em jornais.

Este sistema ilustra um dos pilares básicos da comunidade de software livre: o compartilhamento de conhecimento. Apenas a programação em PHP que implantou a metodologia do sistema foi desenvolvida do zero. Todos os demais componentes (indexador, banco de dados, conversores) foram obtidos de projetos livres. Desde o início do projeto se tentou identificar produtos que pudessem nos ajudar a chegar ao nosso objetivo final.

Nenhuma programação foi feita para reproduzir a funcionalidade de componentes livres já existentes. Esta diretriz básica reduziu consideravelmente o tempo de desenvolvimento do sistema. Podemos dizer que o principal mérito do sistema Nou-Rau foi identificar soluções em software livre de boa qualidade e integrá-las de forma harmoniosa. Da mesma forma, como se beneficiou de diversas iniciativas e idéias da comunidade de software livre, o sistema Nou-Rau também é livre e licenciado sob a licença GPL. Nosso objetivo é que seja empregado por um grande número de instituições, colaborando para o compartilhamento de conhecimento e evoluindo a partir das colaborações da comunidade.

Formato Conversor
MicrosoftWord antiword
MicrosoftExcel xlhtml
DVI dvi2tty
Postscript pstotext
PDF Pstopdf (xpdf)

Alguns Usuários do Sistema Nou-Rau

  1. Web Site do Sistema Nou-Rau
  2. Site demonstração Sistema Nou-Rau (inglês)
  3. Site demonstração Sistema Nou-Rau (português)
  4. Biblioteca Digital da Unicamp
  5. Biblioteca Digital sobre EAD - Unicamp
  6. Biblioteca Digital da Unesp
  7. Biblioteca Digital de Software Livre
  8. Escola de Música e Belas Artes do Paraná
  9. Universidade Estadual de Londrina
  10. Universidade São Marcos
Error: No site found with the domain 's2.dicas-l.com.br' (Learn more)