Comentário ao artigo "The Probability Ranking Principle in IR"
Artigo da autoria de "The Probability
Ranking Principle in IR", S. E. Robertson in
Journal of Documentation, 33, 294-304. Reprint in "Readings in
Information Retrieval, Karen Sparck-Jones and Peter Willet,
Morgan-Kaufmann 1997, pp. 281-286.
Comentário alargado por Filipe Silva
Robertson neste artigo analisa o princípio de
probabilidade de ranking ("Probability Ranking Principle
(PRP)") aplicado pela primeira vez por Maron e Kuhns
de que um sistema de recuperação deve fazer o ranking de documentos
segundo a probabilidade de estes serem úteis ao utilizador. Este
princípio também foi posto em questão por Cooper.
O trabalho de Maron e Kuhns introduziu uma
ideia bastante necessária à recuperação de informação. Como um sistema
de recuperação não pode saber com certeza absoluta os documentos que o
utilizador pode achar úteis o sistema deve então lidar com a
probabilidade de o documento ser útil.
O princípio PRP diz que se a resposta de sistema a
cada pedido deve uma ordenação (raking) de documentos pela
ordem decrescente de probabilidade de ser útil ao utilizador, onde as
probabilidades são estimadas pelos dados do sistema, então a eficácia
geral do sistema para os utilizadores será a máxima que se pode obter
usando esses dados (segundo Copper citado por Robertson neste artigo).
Partindo das condições que a relevância de
documento a um pedido não depende de outros documentos na colecção, e
que a utilidade de um documento depende do numero de documentos
relevantes já vistos, verifica-se que:
- a aplicação do principio do raking
segundo o PRP para a resposta a um pedido é o mais eficaz,
segundo as medidas tradicionais de eficácia da recuperação de
informação
- a aplicação do principio do raking
segundo o PRP é a o procedimento de decisão correcto segundo a
teoria da decisão de Bayesiana para a resposta a um pedido.
Onde o PRP falha? Segundo Cooper na independência
de pedidos (questões) ao sistema. A PRP funciona com um raking
que é calculado documento por documento, quando a eficácia dos
resultados deve ser analisada por pedido. Um documento pode ser ou não
útil face à presença de um outro num ponto mais alto do raking
por ter ou a mesma informação e assim ser "inútil" ou por a
complementar e assim se tornar mais útil. Podemos também ter
documentos que isolados são de baixa utilidade mas que juntos poderiam
ser úteis e que ou não seriam encontrados ou por uma decisão de corte
seriam ignorados.
Assim Robertson propõem um
principio de ranking por pedido nos seguintes termos
os documentos devem ser ordenados de modo que a
probabilidade de um utilizador ficar satisfeito com uma dada posição
é máxima.
Como satisfação Robertson
considera que o utilizador desce na lista até um dado ponto onde se
considera "satisfeito" com a informação obtida.
O problema com o principio baseado no pedido é que
não funciona documento por documento, sendo um algoritmo que opere
dessa maneira de difícil desenho, a não ser que analise todas as
possibilidades de ordenação. O autor chega mesmo a apresentar que
talvez não seja possível atingir uma ordenação óptima de acordo com o
principio baseado no pedido.
Uma outra maneira de abordar o problema seria a
aplicação do PRP baseado em análise documento por documento a um
agrupamento de documentos. O Robertson
neste artigo tece vários comentários e considera que o aparecimento de
uma teoria geral de dependência entre documentos é uma necessidade
para a recuperação de informação, devendo esta talvez evoluir da
teoria de clustering.
O uso do termo "utilidade" de um documento em todo
o artigo não assume inteiramente que a utilidade é relativa e que para
o sistema a calcular necessita de "conhecer" o utilizador (ou tipo de
utilizadores) via feedback ou histórico. Assim, acho que o
contra-exemplo apresentado em apêndice (de Cooper) não é realmente um
contra-exemplo pelo facto que toma em consideração pessoal de
diferentes pessoas sem o uso de uma real função de utilidade. Se, para
a mesma pergunta resultados diferentes são requeridos ou a pergunta
está mal feita ou o utilizador já conhece os demais resultados.
Para receber o feedback dos utilizadores
alguns sistemas tentam já usar perfis de utilizadores e usando um
historial encontrar padrões estatísticos para assim "variarem" os
pesos e assim encontrar uma medida de utilidade "pessoal" [WebTop] ou
de tipo de utilizador [Autonomy].
Para relacionamentos entre documentos começam a
aparecer estudos baseados em padrões, alguns estatísticos e outros
baseados em coisas tão menos "analisáveis" como por exemplo redes
neuronais [Dolphin, 2000], que tentam analisar padrões similares para
obter relações entre os documentos.
O raking documento por documento é usado de
modo comum em quase todos os sistemas de recuperação de informação
sendo as suas aplicações mais visíveis as pesquisa na Internet, onde
os documentos são ordenados segundo critérios normalmente
estatísticos.
As novas técnicas de análise intra-documento, desde
o uso de documentos com melhor colocação no raking para obtenção de
mais termos até mesmo clustering estatístico ou por "sugestão" humana
devem começar a emergir e dar mais poder aos utilizadores de modo a
"afunilar" o resultado.
As pesquisa mais comuns actualmente são efectuadas
na Internet usando sistemas de uso simples mas de qualidade de
resultados duvidosa. São poucos os sistemas que permitem ao utilizador
procurar documentos relacionados (de forma correcta) e por meio de
interacções permitir ao sistema "perceber" realmente o que o
utilizador quer, para além deste aumentar simplesmente o numero de
termos usados na pergunta.
A interacção e o armazenamento de perfis de
utilização serão certamente as ferramentas de recuperação usadas de
modo comum num futuro próximo, principalmente em produtos comerciais
"locais", onde a recuperação de informação é realmente um facto
competitivo que produz resultados em termos de capital, não querendo
com isto descurar o aparecimento de sistemas de pesquisa na Internet
com estas características mas que para a maioria dos utilizadores não
se tornarão realmente diferentes dos outros sistemas já existentes (no
mesmo prazo).
Referências:
[Dolphin, 2000] Dolfin Search,
Detailed technology white paper, 2000,
http://www.dolphinsearch.com/downloads/dsWhitePaper2001.pdf
[WebTop ] WebTop
WHITE PAPER ABOUT
LINGUISTIC INFERENCE (Word format)
[Autonomy]
Autonomy's technology White Paper |