Comentário ao artigo "Term-Weighting Approaches in Automatic Text
Retrieval"
Artigo da autoria de Gerard Salton e
Christopher Buckley in Information Processing
and Management, 24, 513-523. Reprint in "Readings in Information
Retrieval, Karen Sparck-Jones and Peter Willet, Morgan-Kaufmann 1997,
pp. 323-328.
Comentário por Filipe Silva
Neste artigo Salton e Buckley comparam várias
maneiras de "pesar" os termos encontrados nos documentos para assim
aumentar a taxa de recuperação de documentos com interesse usadas nos
20 anos anteriores ao artigo, fazendo um resumo das técnicas usadas.
Para além do método de pesar os autores tecem
também comentários sobre a escolha dos termos. Os termos escolhidos
podem ser as palavras isoladas ou termos em tesauros ou termos
relacionados descobertos por via estatística, analise sintácticas ou
por base de conhecimento. Sobre este tema os autores acham que o ganho
obtido pelo uso de linguagens controladas ainda não é suficiente para
o trabalho de construção destas, e o ganho obtido pela extracção
automática de relacionamentos depende do tipo de colecção e que os
relacionamentos são locais.
O método mais eficaz para o "pesar" dos termos tem
de ser uma função que tome em atenção o inverso da frequência do termo
na colecção. Assim um termo pouco frequente irá mais
significativamente identificar um documento.
As provas experimentais dos 20 anos anteriores ao
artigo indicam que o sistema de indexação de texto baseado nos "pesos"
de termos produzem resultados de recuperação semelhantes a outros
meios mais elaborados. A escolha do sistema de peso dos termos deve
ter em conta o tipo de colecção alvo.
As recomendações finais fazem um esquema para o
método probabilístico a ser usado tendo em conta os testes efectuados
pelos autores.
Trata-se se um artigo importante de sumarização de
uso de métodos probabilísticos. |