Logo da FEUP Blue Eyes Bandeira Portuguesa
Principal Sobre mim Mestrado Mafalda Veiga Contra-(des)Informação O CRÍTICO Histórias
Principal > Mestrado em Gestão de Informação > ARI > Trabalhos realizados > Comentário ao artigo "The Probability Ranking Principle in IR"
 
 

2º Semestre

 

Análise de Dados

Análise Documental

Armazenamento e Recuperação de Informação

Bases de Dados

Gestão e Organização da Informação na Internet

Informação Empresarial

Sistemas de Apoio à Decisão

Sistemas Multimédia

1º Semestre

Comentário ao artigo "The Probability Ranking Principle in IR"

Artigo da autoria de "The Probability Ranking Principle in IR", S. E. Robertson in Journal of Documentation, 33, 294-304. Reprint in "Readings in Information Retrieval, Karen Sparck-Jones and Peter Willet, Morgan-Kaufmann 1997, pp. 281-286.

Comentário alargado por Filipe Silva

Robertson neste artigo analisa o princípio de probabilidade de ranking ("Probability Ranking Principle (PRP)") aplicado pela primeira vez por Maron e Kuhns de que um sistema de recuperação deve fazer o ranking de documentos segundo a probabilidade de estes serem úteis ao utilizador. Este princípio também foi posto em questão por Cooper.

O  trabalho de Maron e Kuhns introduziu uma ideia bastante necessária à recuperação de informação. Como um sistema de recuperação não pode saber com certeza absoluta os documentos que o utilizador pode achar úteis o sistema deve então lidar com a probabilidade de o documento ser útil.

O princípio PRP diz que se a resposta de sistema a cada pedido deve uma ordenação (raking) de documentos pela ordem decrescente de probabilidade de ser útil ao utilizador, onde as probabilidades são estimadas pelos dados do sistema, então a eficácia geral do sistema para os utilizadores será a máxima que se pode obter usando esses dados (segundo Copper citado por Robertson neste artigo).

Partindo das condições que a relevância de documento a um pedido não depende de outros documentos na colecção, e que a utilidade de um documento depende do numero de documentos relevantes já vistos, verifica-se que:

  1. a aplicação do principio do raking segundo o PRP para a resposta a um pedido é o mais eficaz, segundo as medidas tradicionais de eficácia da recuperação de informação
  2. a aplicação do principio do raking segundo o PRP é a o procedimento de decisão correcto segundo a teoria da decisão de Bayesiana para a resposta a um pedido.

Onde o PRP falha? Segundo Cooper na independência de pedidos (questões) ao sistema. A PRP funciona com um raking que é calculado documento por documento, quando a eficácia dos resultados deve ser analisada por pedido. Um documento pode ser ou não útil face à presença de um outro num ponto mais alto do raking por ter ou a mesma informação e assim ser "inútil" ou por a complementar e assim se tornar mais útil. Podemos também ter documentos que isolados são de baixa utilidade mas que juntos poderiam ser úteis e que ou não seriam encontrados ou por uma decisão de corte seriam ignorados.

Assim Robertson propõem um principio de ranking por pedido nos seguintes termos

os documentos devem ser ordenados de modo que a probabilidade de um utilizador ficar satisfeito com uma dada posição é máxima.

Como satisfação Robertson  considera que o utilizador desce na lista até um dado ponto onde se considera "satisfeito" com a informação obtida.

O problema com o principio baseado no pedido é que não funciona documento por documento, sendo um algoritmo que opere dessa maneira de difícil desenho, a não ser que analise todas as possibilidades de ordenação. O autor chega mesmo a apresentar que talvez não seja possível atingir uma ordenação óptima de acordo com o principio baseado no pedido.

Uma outra maneira de abordar o problema seria a aplicação do PRP baseado em análise documento por documento a um agrupamento de documentos. O Robertson  neste artigo tece vários comentários e considera que o aparecimento de uma teoria geral de dependência entre documentos é uma necessidade para a recuperação de informação, devendo esta talvez evoluir da teoria de clustering.

O uso do termo "utilidade" de um documento em todo o artigo não assume inteiramente que a utilidade é relativa e que para o sistema a calcular necessita de "conhecer" o utilizador (ou tipo de utilizadores) via feedback ou histórico. Assim, acho que o contra-exemplo apresentado em apêndice (de Cooper) não é realmente um contra-exemplo pelo facto que toma em consideração pessoal de diferentes pessoas sem o uso de uma real função de utilidade. Se, para a mesma pergunta resultados diferentes são requeridos ou a pergunta está mal feita ou o utilizador já conhece os demais resultados.

Para receber o feedback dos utilizadores alguns sistemas tentam já usar perfis de utilizadores e usando um historial encontrar padrões estatísticos para assim "variarem" os pesos e assim encontrar uma medida de utilidade "pessoal" [WebTop] ou de tipo de utilizador [Autonomy].

Para relacionamentos entre documentos começam a aparecer estudos baseados em padrões, alguns estatísticos e outros baseados em coisas tão menos "analisáveis" como por exemplo redes neuronais [Dolphin, 2000], que tentam analisar padrões similares para obter relações entre os documentos.

O raking documento por documento é usado de modo comum em quase todos os sistemas de recuperação de informação sendo as suas aplicações mais visíveis as pesquisa na Internet, onde os documentos são ordenados segundo critérios normalmente estatísticos.

As novas técnicas de análise intra-documento, desde o uso de documentos com melhor colocação no raking para obtenção de mais termos até mesmo clustering estatístico ou por "sugestão" humana devem começar a emergir e dar mais poder aos utilizadores de modo a "afunilar" o resultado.

As pesquisa mais comuns actualmente são efectuadas na Internet usando sistemas de uso simples mas de qualidade de resultados duvidosa. São poucos os sistemas que permitem ao utilizador procurar documentos relacionados (de forma correcta) e por meio de interacções permitir ao sistema "perceber" realmente o que o utilizador quer, para além deste aumentar simplesmente o numero de termos usados na pergunta.

A interacção e o armazenamento de perfis de utilização serão certamente as ferramentas de recuperação usadas de modo comum num futuro próximo, principalmente em produtos comerciais "locais", onde a recuperação de informação é realmente um facto competitivo que produz resultados em termos de capital, não querendo com isto descurar o aparecimento de sistemas de pesquisa na Internet com estas características mas que para a maioria dos utilizadores não se tornarão realmente diferentes dos outros sistemas já existentes (no mesmo prazo).


Referências:

[Dolphin, 2000] Dolfin Search, Detailed technology white paper, 2000, http://www.dolphinsearch.com/downloads/dsWhitePaper2001.pdf

[WebTop ] WebTop WHITE PAPER ABOUT LINGUISTIC INFERENCE (Word format)

[Autonomy] Autonomy's technology White Paper

 

Enviar-me um email

Última Actualização:
  15-12-2004

 

Páginas optimizadas para Netscape 4 ou superior e IE 5 ou superior