Logo da FEUP Blue Eyes Bandeira Portuguesa
Principal Sobre mim Mestrado Mafalda Veiga Contra-(des)Informação O CRÍTICO Histórias
Principal > Mestrado em Gestão de Informação > ARI > Trabalhos realizados > Comentário ao "Term-Weighting Approaches in Automatic Text Retrieval"
 
 

2º Semestre

 

Análise de Dados

Análise Documental

Armazenamento e Recuperação de Informação

Bases de Dados

Gestão e Organização da Informação na Internet

Informação Empresarial

Sistemas de Apoio à Decisão

Sistemas Multimédia

1º Semestre

Comentário ao artigo "Term-Weighting Approaches in Automatic Text Retrieval"

Artigo da autoria de Gerard Salton e Christopher Buckley in Information Processing and Management, 24, 513-523. Reprint in "Readings in Information Retrieval, Karen Sparck-Jones and Peter Willet, Morgan-Kaufmann 1997, pp. 323-328.

Comentário por Filipe Silva

 

Neste artigo Salton e Buckley comparam várias maneiras de "pesar" os termos encontrados nos documentos para assim aumentar a taxa de recuperação de documentos com interesse usadas nos 20 anos anteriores ao artigo, fazendo um resumo das técnicas usadas.

Para além do método de pesar os autores tecem também comentários sobre a escolha dos termos. Os termos escolhidos podem ser as palavras isoladas ou termos em tesauros ou termos relacionados descobertos por via estatística, analise sintácticas ou por base de conhecimento. Sobre este tema os autores acham que o ganho obtido pelo uso de linguagens controladas ainda não é suficiente para o trabalho de construção destas, e o ganho obtido pela extracção automática de relacionamentos depende do tipo de colecção e que os relacionamentos são locais.

O método mais eficaz para o "pesar" dos termos tem de ser uma função que tome em atenção o inverso da frequência do termo na colecção. Assim um termo pouco frequente irá mais significativamente identificar um documento.

As provas experimentais dos 20 anos anteriores ao artigo indicam que o sistema de indexação de texto baseado nos "pesos" de termos produzem resultados de recuperação semelhantes a outros meios mais elaborados. A escolha do sistema de peso dos termos deve ter em conta o tipo de colecção alvo.

As recomendações finais fazem um esquema para o método probabilístico a ser usado tendo em conta os testes efectuados pelos autores.

Trata-se se um artigo importante de sumarização de uso de métodos probabilísticos.

 

Enviar-me um email

Última Actualização:
  15-12-2004

 

Páginas optimizadas para Netscape 4 ou superior e IE 5 ou superior