Ana Isabel Correia, Sérgio Nunes

Neste artigo, os autores fazem uma revisão dos modelos probabilísticos utilizados na recuperação de informação. As novas técnicas, que constituem a base para a investigação futura, são também abordadas.

Os modelos probabilísticos baseiam-se em algoritmos que ordenam os documentos em função da probabilidade da relevância para as necessidades de informação do utilizador. A teoria que suporta estes modelos começou a ser desenvolvida nos anos 60 e desde então os modelos probabilísticos têm sido extensivamente explorados na investigação e na indústria. Um importante obstáculo para estes modelos é a dificuldade em conjugar uma base teórica sólida com mecanismos computacionalmente eficientes. Assim, foram avançadas algumas assunções, com vista a simplificar e facilitar a aplicação destes métodos. Apesar de originarem, em certos casos, inconsistências nos modelos elaborados, estas assunções não prejudicam os resultados práticos.

No artigo, os modelos apresentados, são separados em duas categorias, os modelos baseados em relevância e aqueles baseados em inferência. Os primeiros baseiam-se em factos sobre a importância dos documentos para uma dada pergunta, enquanto que os segundos aplicam técnicas e conceitos originários das áreas da lógica e da inteligência artificial.

As evoluções tecnológicas tornaram possível o acesso a elevados volumes de informação cada vez mais dispersa em diversos formatos. Devido às crescentes necessidades e exigências dos utilizadores, os novos sistemas de recuperação de informação deverão, de acordo com os autores, contemplar: documentos multimédia, recuperação interactiva, recuperação de texto integrado e factos e tratamento de dados imprecisos (resultantes, por exemplo, da utilização de sistemas de OCR).

Na conclusão do artigo, os autores referem o considerável potencial ainda existente para investigação e desenvolvimento na área da recuperação de informação tendo por base os modelos probabilísticos.