User Tools

Site Tools


home

This is an old revision of the document!


A PCRE internal error occured. This might be caused by a faulty plugin

===== Título ===== Never Ending Language metalearning: model management for CMU's ReadTheWeb project. [[https://sigarra.up.pt/feup/pt/estagios_empresas.ver_dados_proposta?p_id=177346&pv_perfil=ALU|Link]] ===== Autor ===== Tiago Miguel Martins Vieira [[http://www.tiagovieira.pt|Link]] ===== Orientadores ===== **Orientador:** Carlos Soares [[https://sigarra.up.pt/feup/pt/func_geral.formview?p_codigo=235847|Link]]\\ **Co-orientador:** Estevam Hruschka Jr. [[http://www2.dc.ufscar.br/~estevam/|Link]]\\ Relatório Final: {{:vfinal.pdf|}} ---- ===== Abstract ===== The main goal of CMU’s ReadTheWeb project is to build a new kind of machine learning system that continuously reads the web, 24 hours per day, 7 days per week. This system is called the Never-Ending Language Learner (NELL). While this goal is not necessarily unheard-of, NELL stands out as being capable of improving the way it learns over time, that is to say, it learns to read the web better than it did the day before. To succeed in such an arduous quest, NELL combines several subsystem components that implement complementary knowledge extraction methods. For the same task, NELL is able to use different extraction methods. The performance of the components that use such methods, that is the quality of the extracted knowledge for different topics, will however change over time. Furthermore, the evaluation of the produced knowledge is not immediate, and can, sometimes, take days or even months to be performed. In order to maximize the performance of the system as a whole, it becomes necessary to be able to predict how good or bad the quality of the produced knowledge is, at any given time. Due to the amount of data and algorithm’s involved, traditional machine learning techniques are not a viable option. A preliminary approach to use metalearning to address this issue was proposed by Santos. In this project, we extend this work. Our approach seeks to relate the innate (meta)features of the data produced and its quality. The created metalearning system proposed in this work, is able to, for different components, predict the quality of the data produced for different topics. ===== Resumo ===== O principal objetivo do projeto ReadTheWeb da CMU é desenvolver um novo tipo de sistema de aprendizagem que lê a web continuamente, 24 horas por dia, 7 dias por semana. Este sistema é chamado de "Never-Ending Language Learner" (NELL). Embora este objetivo não seja necessariamente novo, a NELL destaca-se como sendo capaz de melhorar a forma como aprende ao longo do tempo, o que equivale a dizer que lê a web melhor hoje do que leu no dia anterior. Para ser bem sucedido nesta árdua tarefa, a NELL combina vários componentes de subsistema que implementam métodos de extração de conhecimento complementares. Para uma mesma tarefa, a NELL é capaz de usar diferentes métodos de extração. A performance dos componentes que usam tais métodos, isto é a qualidade do conhecimento extraído para diferentes tópicos, irá variar ao longo do tempo. Por outro lado, a avaliação do conhecimento produzido não é imediata e pode, por vezes, levar dias ou até meses a ser efectuada. De forma a maximizar a performance do sistema como um todo, torna-se necessário, a qualquer momento, conseguir prever quão bom ou mau é o conhecimento produzido. Devido à grande quantidade de informação e algoritmos envolvidos no processo, métodos tradicionais aprendizagem automática não são viáveis. Uma abordagem preliminar usando meta-aprendizagem para combater este problema foi já proposta por Santos. Este projeto propõe-se a estender esse trabalho. A nossa abordagem pretende relacionar as (meta)características dos dados e a sua qualidade. O sistema de meta-aprendizagem proposto neste trabalho é capaz, para diferentes componentes, prever a qualidade da informação proposta para diferentes tópicos.

home.1434731766.txt.gz · Last modified: 19/06/2015 18:36 by tvieira