User Tools

Site Tools


home

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
home [27/11/2014 16:33]
tvieira
home [24/06/2015 13:00] (current)
tvieira
Line 1: Line 1:
 ===== Título ===== ===== Título =====
-Never Ending Language ​metaLearning: model management for CMU's ReadTheWeb project. [[https://​sigarra.up.pt/​feup/​pt/​estagios_empresas.ver_dados_proposta?​p_id=177346&​pv_perfil=ALU|Link]]+Never Ending Language ​metalearning: model management for CMU's ReadTheWeb project. [[https://​sigarra.up.pt/​feup/​pt/​estagios_empresas.ver_dados_proposta?​p_id=177346&​pv_perfil=ALU|Link]]
  
 ===== Autor ===== ===== Autor =====
Line 9: Line 9:
 **Co-orientador:​** Estevam Hruschka Jr.  [[http://​www2.dc.ufscar.br/​~estevam/​|Link]]\\ **Co-orientador:​** Estevam Hruschka Jr.  [[http://​www2.dc.ufscar.br/​~estevam/​|Link]]\\
  
 +===== Relatório Final: ===== 
 +{{:​pdis-en.pdf| pdf}}
 ---- ----
 +===== Abstract =====
 +The main goal of CMU’s ReadTheWeb project is to build a new kind of machine learning system that continuously reads the web, 24 hours per day, 7 days per week. This system is called the Never-Ending Language Learner (NELL). While this goal is not necessarily unheard-of, NELL stands out as being capable of improving the way it learns over time, that is to say, it learns to read the web better than it did the day before. To succeed in such an arduous quest, NELL combines several subsystem components that implement complementary knowledge extraction methods. For the same task, NELL is able to use different extraction methods. The performance of the components that use such methods, that is the quality of the extracted knowledge for different topics, will however change over time. Furthermore,​ the evaluation of the produced knowledge is not immediate, and can, sometimes, take days or even months to be  performed. In order to maximize the performance of the system as a whole, it becomes necessary to be able to predict how good or bad the quality of the produced knowledge is, at any given time. Due to the amount of data and algorithm’s involved, traditional machine learning techniques are not a viable option. A preliminary approach to use metalearning to address this issue was proposed by Santos. In this project, we extend this work. Our approach seeks to relate the innate (meta)features of the data produced and its quality. The created metalearning system proposed in this work, is able to, for different components, predict the quality of the data produced for different topics.
  
-===== Descrição do Tema ===== +===== Resumo ​===== 
-==== Resumo ​do trabalho ==== +O principal objetivo ​do projeto ​ReadTheWeb da CMU é desenvolver ​um novo tipo de sistema de aprendizagem que lê a web continuamente,​ 24 horas por dia, 7 dias por semanaEste sistema é chamado de "Never-Ending Language Learner"​ (NELL). Embora este objetivo ​não seja necessariamente novo, a NELL destaca-se como sendo capaz de melhorar a forma como aprende ao longo do tempo, ​o que equivale a dizer que lê a web melhor hoje do que leu no dia anterior
-projeto ​NELL (http://​rtw.ml.cmu.edu/​rtw/​) ​é reconhecidamente ​um dos mais interessantes na computação (http://​www.nytimes.com/​2010/​10/​05/​science/​05compute.html?​_r=0&​adxnnl=1&​adxnnlx=1379343724-RNe4yJbCcYJKz4al14jF5Q). objetivo ​é desenvolvimento de um sistema ​que leia continuamente ​a web para atualizar o seu conhecimento ​do mundo\\ +Para ser bem sucedido nesta árdua tarefa, a NELL combina vários componentes ​de subsistema que implementam métodos de extração de conhecimento complementares. Para uma mesma tarefa, a NELL é capaz de usar diferentes métodos de extração. A performance ​dos componentes que usam tais métodos, isto é qualidade ​do conhecimento ​extraído ​para diferentes tópicos, irá variar ao longo do tempoPor outro lado, avaliação do conhecimento produzido não é imediata ​podepor vezes, levar dias ou até meses a ser efectuadaDe forma a maximizar ​performance do sistema 
-\\ +como um todotorna-se ​necessário,​ a qualquer momentoconseguir prever quão bom ou mau é conhecimento produzido. Devido à grande quantidade ​de informação e algoritmos envolvidos no processo, métodos tradicionais aprendizagem automática não são viáveis. Uma abordagem ​preliminar usando meta-aprendizagem ​para combater este problema foi já proposta por Santos. Este projeto propõe-se ​estender esse trabalhoA nossa abordagem ​pretende relacionar ​as (meta)características dos dados sua qualidadeO sistema ​de meta-aprendizagem proposto neste trabalho é capaz, ​para diferentes ​componentesprever ​qualidade ​da informação proposta ​para diferentes tópicos.
-A arquitetura do NELL envolve um grande número ​de modelos para tarefas diversasque cobrem desde recolha ​dos dados até à atualização do conhecimento e escolha ​do conhecimento para validação por humanosMuitos desses modelos são obtidos com recurso ​algoritmos de machine learning ​data mining. A utilização de um grande número de algoritmos e modelos cria o desafio de os gerir de forma eficaz e eficiente. Esta gestão é necessária porque um modelo que obtém bons resultados num momentopode deixar de o fazer noutra alturaAssim, é necessário monitorizar o comportamento dos modelos de forma a identificar o mais rapidamente possível os que não estão ​ter um desempenho satisfatório. Quando isso aconteceé então ​necessário ​desenvolver novos modelos para o substituirem. Dado que existem muitos algoritmos diferentes para o fazeré computacionalmente muito pesado testá-los ​todos para escolher o melhor modeloprincipalmente tendo em conta volume ​de dados disponível. Uma abordagem para a tarefa de gestão de modelos é o metalearningMetalearning consiste na utilização de uma abordagem ​de machine learning para desenvolver modelos que relacionem ​as características dos dados usados para obter um modelo com o seu desempenho.\\ +
-\\ +
-Neste projeto pretende-se investigar ​aplicabilidade de uma abordagem de metalearning para a gestão dos modelos do NELLPara isso serão identificados diferentes conjuntos ​de dados usados ​para desenvolver modelos usados no NELL; serão aplicados ​diferentes ​algoritmos a esses dados e estimado o seu desempenho nas tarefas respetivas; será desenvolvida uma abordagem de metalearning para seleção do melhor algoritmo para cada conjunto de dados; eem caso de resultados positivos, o sistema desenvolvido será integrado no NELL. +
- +
-==== Objetivos e Resultados Esperados ==== +
-1. Estudo comparativo de diferentes algoritmos de machine learning/​data mining no NELL \\ +
-2. Desenvolvimento de uma abordagem de metalearning para seleção de algoritmos para o NELL \\ +
-3. Integração ​da solução de seleção de algoritmos no NELL \\ +
- +
-==== Aspetos Inovadores ==== +
-Nova abordagem de metalearning ​para gestão contínua de modelos em problemas de web mining.+
home.1417105993.txt.gz · Last modified: 27/11/2014 16:33 by tvieira