Artigo da autoria de Michael Lesk. Bellcore
Comentário por Filipe Silva
Neste artigo datado de 1995 e apresentado pela
conferência dos 50 anos de "As We May Think"
Michael Lesk faz uma análise comparativa entre as sete idades
do homem descritas por Shakespeare e a história da recuperação da
informação, desde a década de 50 até 2010 (no futuro), data onde
prevê que visão de acesso a bibliotecas de Bush
[Bush 1945] deve ser atingida. Compara também a
visão de "física" Bush com a visão "probabilística" de Weaver [Weaver,
1955 citado por Micheal Lesk] no que toca a recuperação de Informação.
Michael Lesk divide as várias fases da recuperação da informação em
infância, correspondendo aos anos 50, estudante,
anos 60, maioridade, anos 70, maturidade, anos 80, crise da
meia-idade, anos 90, realização, anos 2000, e reforma em 2010.
A "infância"
correspondeu a um período em que o sucesso da União
Soviética na conquista do espaço veio trazer nos Estados Unidos fundos
de investigação na área de recuperação de informação e nomeadamente de
tradução automática. Foi neste período que apareceram os primeiros
recuperadores de informação que encontravam os textos (pequenos) que
contivessem alguma palavra, ainda baseados muito em cartões
perfurados.
Nos anos 60s ("estudante") sucederam-se as
primeiras experiências com bases de dados usando pesquisas por
Thesaurus, descritores, palavras-chave e indexes
entrados manualmente. Foi neste período que as ideias de precisão e
recuperação se formaram e a IR ("Information Retrival") se apresentou
como uma ciência à margem das ciências computacionais.
A ideia de procura-livre e indexes automáticos
aparece. Mas teria algum valor? Cyril and Salton e outros mostraram
que sim. A procura de texto livre obtinha valores efectivos e era
muito mais barata e rápida na criação de indexes. As primeiras
colecções de teste aparecem.
Este período foi bastante fértil com o aparecimento
de mais ideais, como por exemplo, de "relevance feedback" e
recuperação multi-idioma. Juntamente com os estudos probabilísticos
usados aparece ainda o estudo da linguagem natural.
Este período ainda não tinha acesso "aberto" a
computação e grande parte do trabalho efectuado era teórico.Foram
os anos 70s e 80s que
possibilitaram a uma maior expansão da ciência IR
devido à descida de vários custos de hardware e
à rapidez computacionais.
Nos Anos 70 ("maioridade") com o desenvolvimento de
processadores de texto trouxe assim um maior volume de textos
disponíveis em formato digital e aliado a uma maior computarização
trouxe a IR a um grande valor comercial.
Os anos 80s com o aparecimento do CD-ROM e da
informação on-line vieram também impulsionar o uso de recuperação de
informação.
Os Anos 90 com a Internet trouxeram uma explosão de material
(documentos) mas também maiores problemas na sua
recuperação. A indexação manual em Directorias
tipo Yahoo foi umas das supresas numa altura que a indexação
automática (baseada em primordialmente em estatística) tinha-se
implantado.
Com novos fundos e com o inicio da conferencias
TREC grandes colecções de texto foram criadas.
O uso crescente de imagens na Net veio também
impulsionar a recuperação de informação baseado em imagens.
Sendo optimista e afastando-se da ideias de
Shakespeare o artigo descreve os anos 2000/2010s
(em termos futuristas , pois o artigo é de 1995) como os anos em que a
recuperação de som, imagem e video começará a ter um papel importante,
e as bibliotecas digitalização o seu material.
Este artigo sumarisa um pouco a evolução da IR e
aponta como prováveis problemas a questão do copyright. partilha de
informação e da reeducação dos bibliotecários do futuro.
Referências:
[Bush 1945]. Vannevar Bush;
"As we may think", Vannevar Bush. The Atlantic Monthly; July, 1945.
Volume 176, No. 1; pages 101-108
[Weaver, 1955 citado por Micheal Lesk].
Warren Weaver; "Translation," pages 15-27 in Machine Translation
of Languages, eds. W. N. Locke and A. D. Booth, John Wiley, New
York (1955). Reprint of 1949 memo. |