Internet Archive guarda 347 bilhões de links

Internet de 40 países, inclusive a do Brasil, está no maior arquivo de web do mundo

PUBLICIDADE

Foto do author Redação
Por Redação
Atualização:

Kristine Hanna, diretora do serviço de Arquivamento Web do Internet Archive, administra o maior acervo de internet do mundo, são 347 bilhões de URLs arquivadas. Na entrevista concedida ao Estadão Acervo, Hanna detalha o monstruoso trabalho. Quantas paginas de web estão arquivadas no Waybackmachine?347 bilhões de URL's. De quantos países?Em torno de 40.Em quantos petabytes?6,2 petabytes de web [no total o Internet Archive tem 12 PB]*.

 

PUBLICIDADE

Como é feita a seleção das páginas que serão arquivadas?Internet Archive escolhe os sites a partir de uma lista, como por exemplo do Alexa.com, que reúne milhões de sites. Nós coletamos inicialemente essas páginas, extraímos o links e também coletamos as páginas sequentes. Esse processo é repetido até de decidimos o fim da coleta.Quantas páginas do Brasil estão arquivadas no Waybackmachine?Existem cerca de 2,5 bilhões de capturas do domínio '.br', no qual estão incluídas páginas em html, imagens e outros tipos de mídia existentes em sites '.br'.A cada dia, quantas páginas são capturadas? Ou a captura é feita por ano?Nós começamos uma nova coleta aproximadamente a cada três meses. Cada coleta reúne aproximadamente de 7 a 10 bilhões de páginas.Qual é a política para arquivar websites?Temos algumas estratégias para começarmos a seleção de sites. Nós tentamos rastrear o conteúdo popular, mais profundamente e conteúdo menos popular mais superficialmente. Para o conteúdo popular, começamos com uma lista [baseado no Alexa.com]. Também puxamos URLs populares a partir de sites de mídia social como o Twitter, ou links externos do Wikipedia. Para conteúdos menos populares, tentamos reunir listas de tantos domínios conhecidos como possível e fazer um rastreamento raso em todos eles em com menos frequência. Você acha que os EUA necessitam de uma nova lei de copyright para o arquivamento web?O Internet Archive adota a posição sobre sobre direitos autorais seguindo a política estabelecida por lei em 2002 [Oakland Archive Policy]. Ela diz que uma biblioteca pública, como o Internet Archive, tem o direito de capturar o conteúdo da web disponível ao público. Mas se um provedor faz um pedido para retirá-lo, nós faremos a remoção. *Informação atualizada em 27 de agosto, às 18h06.

Leia mais sobre arquivamento web:

>> Quem arquivará a internet para as futuras gerações?>> Pesquisador da web não quer só ver sites antigos

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine 

Comentários

Os comentários são exclusivos para assinantes do Estadão.