This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
home [27/10/2014 18:34] tvieira created |
home [19/06/2015 18:37] tvieira |
||
---|---|---|---|
Line 1: | Line 1: | ||
===== Título ===== | ===== Título ===== | ||
- | Never Ending Language metaLearning: model management for CMU's ReadTheWeb project. [[https://sigarra.up.pt/feup/pt/estagios_empresas.ver_dados_proposta?p_id=177346&pv_perfil=ALU|Link]] | + | Never Ending Language metalearning: model management for CMU's ReadTheWeb project. [[https://sigarra.up.pt/feup/pt/estagios_empresas.ver_dados_proposta?p_id=177346&pv_perfil=ALU|Link]] |
===== Autor ===== | ===== Autor ===== | ||
Line 9: | Line 9: | ||
**Co-orientador:** Estevam Hruschka Jr. [[http://www2.dc.ufscar.br/~estevam/|Link]]\\ | **Co-orientador:** Estevam Hruschka Jr. [[http://www2.dc.ufscar.br/~estevam/|Link]]\\ | ||
+ | ===== Relatório Final: ===== | ||
+ | {{:vfinal.pdf|dpdf}} | ||
---- | ---- | ||
+ | ===== Abstract ===== | ||
+ | The main goal of CMU’s ReadTheWeb project is to build a new kind of machine learning system that continuously reads the web, 24 hours per day, 7 days per week. This system is called the Never-Ending Language Learner (NELL). While this goal is not necessarily unheard-of, NELL stands out as being capable of improving the way it learns over time, that is to say, it learns to read the web better than it did the day before. To succeed in such an arduous quest, NELL combines several subsystem components that implement complementary knowledge extraction methods. For the same task, NELL is able to use different extraction methods. The performance of the components that use such methods, that is the quality of the extracted knowledge for different topics, will however change over time. Furthermore, the evaluation of the produced knowledge is not immediate, and can, sometimes, take days or even months to be performed. In order to maximize the performance of the system as a whole, it becomes necessary to be able to predict how good or bad the quality of the produced knowledge is, at any given time. Due to the amount of data and algorithm’s involved, traditional machine learning techniques are not a viable option. A preliminary approach to use metalearning to address this issue was proposed by Santos. In this project, we extend this work. Our approach seeks to relate the innate (meta)features of the data produced and its quality. The created metalearning system proposed in this work, is able to, for different components, predict the quality of the data produced for different topics. | ||
- | ===== Descrição do Tema ===== | + | ===== Resumo ===== |
- | ==== Resumo do trabalho ==== | + | O principal objetivo do projeto ReadTheWeb da CMU é desenvolver um novo tipo de sistema de aprendizagem que lê a web continuamente, 24 horas por dia, 7 dias por semana. Este sistema é chamado de "Never-Ending Language Learner" (NELL). Embora este objetivo não seja necessariamente novo, a NELL destaca-se como sendo capaz de melhorar a forma como aprende ao longo do tempo, o que equivale a dizer que lê a web melhor hoje do que leu no dia anterior. |
- | O projeto NELL (http://rtw.ml.cmu.edu/rtw/) é reconhecidamente um dos mais interessantes na computação (http://www.nytimes.com/2010/10/05/science/05compute.html?_r=0&adxnnl=1&adxnnlx=1379343724-RNe4yJbCcYJKz4al14jF5Q). O objetivo é o desenvolvimento de um sistema que leia continuamente a web para atualizar o seu conhecimento do mundo. \\ | + | Para ser bem sucedido nesta árdua tarefa, a NELL combina vários componentes de subsistema que implementam métodos de extração de conhecimento complementares. Para uma mesma tarefa, a NELL é capaz de usar diferentes métodos de extração. A performance dos componentes que usam tais métodos, isto é a qualidade do conhecimento extraído para diferentes tópicos, irá variar ao longo do tempo. Por outro lado, a avaliação do conhecimento produzido não é imediata e pode, por vezes, levar dias ou até meses a ser efectuada. De forma a maximizar a performance do sistema |
- | \\ | + | como um todo, torna-se necessário, a qualquer momento, conseguir prever quão bom ou mau é o conhecimento produzido. Devido à grande quantidade de informação e algoritmos envolvidos no processo, métodos tradicionais aprendizagem automática não são viáveis. Uma abordagem preliminar usando meta-aprendizagem para combater este problema foi já proposta por Santos. Este projeto propõe-se a estender esse trabalho. A nossa abordagem pretende relacionar as (meta)características dos dados e a sua qualidade. O sistema de meta-aprendizagem proposto neste trabalho é capaz, para diferentes componentes, prever a qualidade da informação proposta para diferentes tópicos. |
- | A arquitetura do NELL envolve um grande número de modelos para tarefas diversas, que cobrem desde a recolha dos dados até à atualização do conhecimento e a escolha do conhecimento para validação por humanos. Muitos desses modelos são obtidos com recurso a algoritmos de machine learning e data mining. A utilização de um grande número de algoritmos e modelos cria o desafio de os gerir de forma eficaz e eficiente. Esta gestão é necessária porque um modelo que obtém bons resultados num momento, pode deixar de o fazer noutra altura. Assim, é necessário monitorizar o comportamento dos modelos de forma a identificar o mais rapidamente possível os que não estão a ter um desempenho satisfatório. Quando isso acontece, é então necessário desenvolver novos modelos para o substituirem. Dado que existem muitos algoritmos diferentes para o fazer, é computacionalmente muito pesado testá-los a todos para escolher o melhor modelo, principalmente tendo em conta o volume de dados disponível. Uma abordagem para a tarefa de gestão de modelos é o metalearning. Metalearning consiste na utilização de uma abordagem de machine learning para desenvolver modelos que relacionem as características dos dados usados para obter um modelo com o seu desempenho.\\ | + | |
- | \\ | + | |
- | Neste projeto pretende-se investigar a aplicabilidade de uma abordagem de metalearning para a gestão dos modelos do NELL. Para isso serão identificados diferentes conjuntos de dados usados para desenvolver modelos usados no NELL; serão aplicados diferentes algoritmos a esses dados e estimado o seu desempenho nas tarefas respetivas; será desenvolvida uma abordagem de metalearning para seleção do melhor algoritmo para cada conjunto de dados; e, em caso de resultados positivos, o sistema desenvolvido será integrado no NELL. | + | |
- | + | ||
- | ==== Objetivos e Resultados Esperados ==== | + | |
- | 1. Estudo comparativo de diferentes algoritmos de machine learning/data mining no NELL \\ | + | |
- | 2. Desenvolvimento de uma abordagem de metalearning para a seleção de algoritmos para o NELL \\ | + | |
- | 3. Integração da solução de seleção de algoritmos no NELL \\ | + | |
- | + | ||
- | ==== Aspetos Inovadores ==== | + | |
- | Nova abordagem de metalearning para gestão contínua de modelos em problemas de web mining. | + | |
- | + | ||
- | ==== Plano de Trabalho ==== | + | |
- | 1. [mês 1] Pesquisa bibliográfica sobre NELL e metalearning \\ | + | |
- | 2. [mês 1] Recolha de dados \\ | + | |
- | 3. [mês 2] Concepção da solução de seleção de algoritmos para o NELL baseada em metalearning \\ | + | |
- | 4. [mês 3] Implementação da solução \\ | + | |
- | 5. [mês 4] Avaliação empírica da solução desenvolvida \\ | + | |
- | 6. [mês 5] Integração da solução no NELL \\ | + | |
- | 7. [mês 6] Escrita da dissertação \\ | + | |
- | + | ||
- | ---- | + | |
- | + | ||
- | ===== Conteúdos ===== | + | |
- | - [[estado da arte|Estado da Arte]] | + |