ir para o conteúdo
Busca
Busca por data

Pesquisador da web não quer só ver sites antigos

Clément Oury, da Biblioteca Nacional Francesa, fala sobre os novos desafios do arquivamento web

24 de agosto de 2013 | 13h 46
Carlos Eduardo Entini

Em entrevista ao Estadão Acervo, Clément Oury, chefe do Depósito Legal Digital da Biblioteca Nacional Francesa e tesoureiro do IIPC, fala sobre os novos desafios do arquivamento web. Entre eles está a dificuldade indexar o material coletado - só na biblioteca francesa estão arquivados mais de 20 bilhões de arquivos. A indexação é fundamental para abrir novos caminhos de pesquisa e análise. "O pesquisador que trabalha com web não quer apenas achar sites antigos", explica Oury, "ele quer também a possibilidade de fazer uma cartografia dos sites". Para ele a preservação o patrimônio cultural da web é um esforço que deve envolver vários setores, não somente o estado.

Depois de 10 anos de IIPC, quais são atualmente as principais questões para avançar, técnicas ou políticas?
Existem muitos desafios a resolver. Do ponto de vista técnico da coleta, existe um volume grande de sites que são difíceis de arquivar. Principalmente na questão de vídeos. Há cada vez mais vídeos na internet e eles são muito difíceis de coletar, porque frequentemente são vídeos em streaming e os robôs não conseguem capturar. E também existem os aplicativos que são difíceis de coletar. Portanto existem novos conteúdos que o robô deverá coletar. Existe também para a Biblioteca Nacional Francesa, e para o Depósito Legal que tem o dever de coletar todo o conteúdo, o problema da criação cada vez maior de sites, portanto o problema de armazenamento e uma dificuldade identificar os sites nacionais. Isso quer dizer que que a internet é mundial mas o Depósito Legal é ligado ao território. Por exemplo, na França nos coletamos o conteúdo '.fr'. Todo o '.fr' é fácil de identificar, mas existem muito conteúdos franceses que são '.com', '.net' ou '.org', e é difícil de saber quais deles são franceses. Todos os países têm esse problema, não é particularidade francesa, muitas bibliotecas nacionais como a British Library tem esse problema. 


Sala da biblioteca Nacional Francesa dedicada à consulta off-line de sites arquivados. Foto: David Paul Carr/BnF

Então a solução é internacional?
A solução é complicada. A solução é o desenvolvimento de programas que podem reconhecer automaticamente que um site é francês, dinamarquês ou que o site seja brasileiro. Esse é problema de caráter técnico da coleta. Outro problema que se coloca é o do acesso. Como são coleções extremamente grandes existe o problema da indexação que custa muito caro.

Caro por que?
Trabalho de muitas máquinas, desenvolvedores e engenheiros para fazer uma indexação por palavra-chave. Isto quer dizer que deve existir uma palavra-chave para encontrar sites ou páginas que falam dela. Isso é muito difícil fazer porque, por exemplo, a Biblioteca Nacional da Francesa tem 20 bilhões de fichas [de sites]. Em matéria de desafio técnico tem a questão da pesquisa e de análise dos sites, porque o pesquisador que trabalha com web não quer apenas achar sites antigos para ler, ele quer também a possibilidade de fazer uma cartografia dos sites. Por exemplo ele quer analisar vários sites de política para saber qual deles tem ligações com outros sites de política, [estabelecer] as ligações que existem entre eles. A cartografia se faz para identificar quais são as correntes políticas na web. Isso pode se aplicar a qualquer tipo de tema para ver como os sites se conversam. Eles também analisam as frequência de palavras.

Leia também:

>> Quem arquivará a internet para as futuras gerações?

>> Internet Archive guarda 347 bilhões de links


Falamos de uma forma de pesquisa?
Isso mesmo. Vemos que nas pesquisas se coloca uma palavra-chave, por exemplo Nicolas Sarkozy, e vemos o contexto que ela está em diferentes períodos, [Se pesquisa] para ver se foi falado dele muito em 2007 ou não depois de 2012. As análises são assim. Esse tipo de pesquisa é um desafio técnico.

O arquivamento de web deve ser uma questão de Estado?
Sim e não. Existem evidentemente vários países com depósito legal para pegar o máximo de conteúdo do país. Isso é feito pela Biblioteca Nacional Francesa. Mas existem outras instituições que fazem o arquivamento web, por exemplo arquivos que vão arquivar o conteúdo da administração pública como o da Inglaterra via National Archive que arquivam o conteúdo governamental. Tem bibliotecas universitárias ou laboratórios de pesquisa que arquivam para analisar o 'corpus' do objeto particulares, Por exemplo, a biblioteca da Universidade de Columbia de NY arquiva os sites que falam sobre o direitos dos homens do mundo inteiro.


A internet francesa começou a ser coletada em 2002, hoje são mais de 20 bilhões de URL's.


São arquivos especializados, eles fazem a mesma coisa de maneira diferente?
Tecnicamente são a mesma coisa, mas obrigatoriamente não tem o mesmo objetivo, o mesmo direito jurídico.

O Internet Archive pode arquivar toda a web porque é uma fundação.
Digamos que eles têm um estatuto jurídico que permite coletar a totalidade da web, e é muito bom que a faça. Mas o Internet Archive é uma grande instituição que não pode fazer tudo. A ideia do IIPC é de uma associação de diferentes políticas de arquivamento que trabalha junto com as bibliotecas nacionais que arquivam a internet do seu país. [Arquivos], universitários, nacionais, pesquisadores, Internet Archive e outros, todos trabalhando juntos para chegarmos à melhor maneira de arquivar juntos a internet mundial. Em cada país, fundação, instituição, trabalhamos juntos para preservar a web. Portanto não é só uma questão de estado, é uma questão de pesquisadores, instituições privadas, arquivos. Todos devem participar.

No arquivamento do papel as decisões são centradas no bibliotecário. No digital o processo de decisão depende de outros profissionais. Como é a relação entre eles?
A decisão de arquivamento web é sempre tomada pelos bibliotecários. Isto quer dizer que eles trabalham diretamente e permanentemente com os engenheiros. Mas são os bibliotecários fazem as demandas e selecionam o conteúdo. É a política documental, os bibliotecários dizem aquilo que deve ser capturado e em seguida os engenheiros dizem aquilo que pode ser capturado, porque existem coisas que não podem ser capturadas. Portanto, os bibliotecários se ocupam da biblioteca, os pesquisadores se ocupam do laboratório de pesquisa, os arquivistas dos arquivos nacionais e os engenheiros encontram soluções para o arquivamento. Desse ponto de vista não é diferente. Além disso, nós do Depósito Legal da BnF capturamos tudo o que é '.fr' não importa qual site seja. É a mesma coisa do depósito legal em papel, não escolhemos que livros receberemos, nós recebemos tudo.

A internet é patrimônio cultural?
Muita gente compreende que a web é patrimônio, como livros, vídeos e filmes. A internet é aceita [como patrimônio] por todos na BNF. Nas bibliotecas nacionais, que são membros do IIPC, é a mesma coisa que na França. Mas não é assim para todos os países. Há alguns que não têm lei sobre depósito legal nem política de arquivamento de web.

A França foi o primeiro país a ter depósito legal para a internet?
Um dos primeiros, em 2006. [Na Inglaterra há uma lei aprovada em 2003, mas só entrou em vigor em 2013]

Aposta-se que o papel irá desaparecer. O papel como suporte, é o meio mais seguro de preservar a informação?
Não necessariamente. O meio mais seguro de arquivamento é a pedra! Há um paradoxo com o digital. O suporte digital é frágil, isso é fato, Mas com o digital podemos copiar facilmente, portanto se copiarmos a cada cinco anos, não perdemos nada. A cópia é rápida e não muito cara. De fato podemos preservar o digital, mas a sua preservação não é só um problema técnico, o verdadeiro problema é o de organização. Isso quer dizer que os arquivos devem ser copiados com frequência determinada. Não é difícil, mas há um custo. A conservação do papel também tem custo, mas menor. Os dois têm custo e demandam organização. O problema do digital é que é novo e no começo perdemos muitos documentos. Hoje perdemos menos.

As grandes empresas de internet que tem grande capacidade de armazenamento de dados. Elas terão alguma papel no arquivamento da web?
Google não arquiva. Ele tem o crawler como nós que funciona da mesma maneira. (…) Mas ele só guarda a última versão do site. A parte da coleta é a mesma, mas o Google suprime a versão mais antiga e para nós, como se trata de patrimônio, tudo é guardado

Qual a relação da BNF com o direito de autor?
Nós temos uma lei no código do patrimônio sobre depósito legal da internet, isto quer dizer que a lei cria uma exceção do direito do autor. Não se pode copiar os conteúdos de um autor sem autorização dele, a não ser quando se trata do depósito legal. Somente a BNF tem esse direito. Mas em contrapartida, apesar da BNF poder coletar todo o conteúdo francês na internet, ela não pode dar acesso a esse conteúdo, salvo nas sala de consulta.

É um paradoxo.
Completamente. Mas é a lei que nos permite coletar sem pedir permissão do autor tudo que nos é encomendado. Temos uma missão de conservação e preservação da web, nós a conservamos para o pesquisador e nos comprometemos a não colocar on-line.

É preciso ir até a BNF para pesquisar o que estava on-line?
Sim. Logo mais o acesso também será dado pelas bibliotecas regionais francesas. As bibliotecas das capitais, como Lyon, Marsellie, Strasbourg fornecerão acesso às coleções. Os arquivos departamentais de Cayenne, capital da Guiana Francesa, também darão acesso. Portanto os arquivos da web francesa estarão justamente ao lado do Brasil (risos).

Em relação ao papel, os custo de armazenamento do digital são mais altos ou não?
É muito difícil responder, porque não podemos comparar o custo de 20 bilhões de arquivos digitais e milhões de livros. Os custos não são os mesmos. Sobre o papel tem o custo que não vemos, por exemplo o dos imóveis, que aumentam cada vez mais na França e no mundo. O papel ocupa muito espaço e não levamos em conta esse preço. Em contraposição uma sala de informática para conservar o digital, não ocupa muito espaço, mas a o custo da máquina é alto. E temos cada vez mais o custo do digital. O custo do digital é uma coisa nova, já que o papel já está conservado e o digital e novo e parece tudo mais caro. Portanto é difícil saber o que é mais caro porque são coisas
incomparáveis. É difícil comparar um site e um manuscrito.

Onde estão os servidores que guardam a web francesa?
No prédio da BNF e existe um backup nos arredores de Paris [também pertencente à Bnf].

Qual o custo da operação?
É difícil dizer. A mão de obra custa mais do que a máquina. São nove profissionais dedicados exclusivamente, cinco bibliotecários e quatro engenheiros. Além disso existem bibliotecários que não fazem parte dessa equipe mas que indicam os sites a serem coletados. Essa é uma pequena parte do trabalho. Além disso tem uma rede [de profissionais]. Por exemplo na BNF há uma equipe que compra livros de história e que também vão selecionar sites de história para coletarmos. Portanto estão envolvidas [na BNF] cerca de setenta pessoas que selecionam sites.

A memória da web francesa está cada parte em uma região do país?
As coleções estão todas em Paris, o mesmo para o papel. Todo o depósito legal está em Paris. [Em outros lugares] existem outras coleções que são complementares.

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine 

Atualizado em 2/9, às 16h09.

FOTOS HISTÓRICAS

Leila Diniz e amigas em 1967

Veja essa e outras imagens que marcaram época Leila Diniz e amigas em 1967

Foto: Ywane Yamazaki/Estadão

Tópicos
ver todos