Ana Isabel Correia, Sérgio Nunes

Na Internet, um dos maiores problemas que encontramos, em relação à informação, é a sua pesquisa de uma forma fácil e com uma recuperação de elementos relevantes. Com o aumento exponencial da Internet, da informação na Internet e do número de utilizadores com comportamentos de pesquisa diversos, as tecnologias para pesquisa e recuperação de informação estão cada vez mais a ser alvo de estudo para melhor corresponder às expectativas dos utilizadores.

A maioria dos utilizadores usa os de motores de pesquisa para encontrar informação de um interesse específico. A escolha recai sobre as ferramentas de pesquisa que recuperam informação mais rapidamente e com resultados de grande relevância. A opinião dos utilizadores é que a eficácia da actual geração deste tipo de ferramentas fica aquém do esperado. A forma de efectuar as interrogações, a velocidade na recuperação de informação, a fraca relevância de resultados recuperados (ruído na recuperação e broken links) e o formato da apresentação da informação poderia ser melhorada fornecendo um serviço de melhor pesquisa e recuperação. A avaliação dos motores de busca é efectuada baseando-se em 3 critérios: velocidade, precisão (quantos resultados recuperados são interessantes) e revocação (quantos interessantes são recuperados).

A indexação de conteúdos é uma das formas de catalogar a informação para posteriormente ser recuperada. Efectuada correctamente, os resultados terão uma taxa de revocação elevada. A indexação consiste em criar pontos de acesso para determinado conteúdo consistindo em regras de catalogação. Existem 3 tipos de indexação: manual, automática e a meta-informação. A indexação manual é efectuada por indexadores profissionais que, devido à sua experiência, o fazem com bastante eficiência. Mas, esta forma de indexação já está obsoleta, nomeadamente no que diz respeito à internet, devido à quantidade elevada de informação e devido a ser efectuada por diferentes pessoas e diferentes critérios provoca que haja falta de consistência. A indexação automática é efectuada por agentes inteligentes que percorrem as páginas e seguindo critérios pré-definidos fazem a indexação. Este método é menos trabalhoso que o anterior mas tem alguns problemas: pode facilmente causar demasiado tráfego na rede, pode indexar páginas sem interesse ou com pontos de acesso errados e tem o problema da indexação de páginas actualizada frequentemente (como por exemplo páginas de notícias). A meta-informação facilita a colecção de informação pelos indexadores automáticos. Estes, vão indexar utilizando a informação do conteúdo da página, que se encontra em anexo à página, criando os pontos de acesso mais correctos já que a informação é fornecida pelo autor. O grande problema deste método é que o número de páginas que contém meta-informação é muito reduzido. Outro método para a catalogação de informação são os critérios de agrupamento. É possível agrupar documentos semelhantes (sobre o mesmo assunto) e aumentar desta forma a velocidade de recuperação de informação. Para que assim seja, é necessário que haja a escolha de bons termos de indexação para cada agrupamento. O clustering é uma da formas ideais de organização de documentos para facilitar a recuperação em bases de dados com um volume elevado de informação.

Os algoritmos utilizados na recuperação da informação e a sua apresentação são também aspectos importantes. Há diversos algoritmos nomeadamente o modelo lógico e o modelo vectorial que são bastante utilizados. O modelo lógico funciona com interrogações através de operadores booleanos e o modelo vectorial funciona atribuindo pesos na associação de termos com os documentos. A apresentação da informação recuperada é normalmente efectuada através de listas de apontadores com o resultado da informação pesquisada e podem conter um resumo do conteúdo de cada página recuperada estando ordenadas por interesse. Existem apresentações mais amigáveis como por exemplo as interfaces acústicas que lêem em voz alta a informação recuperada.

Uma nova geração de ferramentas está a surgir trazendo ideias inovadoras. Um assunto de interesse mundial faz com que hajam inúmeros projectos de investigação relacionados com o futuro da recuperação da informação na Internet. A recuperação de informação no comércio electrónico é de grande utilidade. A informação sobre onde se encontram mundialmente os produtos com os preços mais baixos é importante, e fazer a recuperação com base na comparação das especificidades do produto ou baseado nas diferentes opiniões é ainda de maior vantagem. Outra ferramenta da nova geração é a recuperação de informação multimedia: texto, imagem, som, gráficos, animações e vídeo. Encontrar documentos na Internet que tenham imagens de interesse ou a pesquisa de uma frame especifica num video são problemas bastante sofisticados que seria vantajoso resolver.