Definição do Estudo

    1. Perceber os limites

    2. Escolha do estudo

    3. Elementos importantes a analisar

    4. Selecção do conjunto de dados (amostra)

A definição do âmbito do estudo, constitui o segundo passo num estudo de DM. Não é necessário ter-se finalizado a preparação dos dados para se definir o estudo a realizar, uma vez que todo o processo é cíclico e retroactivo. Ao longo deste muitas alterações se registam, das quais resulta a melhoria global do modelo. A definição do estudo difere em função de se estar perante a situação de aprendizagem supervisionada ou não supervisionada.

Na aprendizagem supervisionada, a definição do estudo envolve definir o objectivo, seleccionar a variável dependente ou um determinado output que se identifique com o objectivo, e especificar os campos de dados a serem utilizados. Os bons estudos estão limitados ao que possa ser descrito com os dados.

Na aprendizagem não supervisionada, o objectivo geral é o de agrupar tipos similares de dados, ou identificar excepções, no conjunto de dados. Por exemplo, o agrupamento de tipos semelhantes de dados, ou segmentação, é utilizado em muitas actividades, nomeadamente na identificação de segmentos de mercado. A identificação de excepções é útil na descoberta de dados fraudulentos ou incorrectos.

Existem alguns aspectos importantes de relevância para todos os estudos. Em primeiro lugar, a definição de estudos envolve especificar uma região do conjuntos de dados (amostra). Um conjunto de dados pode ser utilizado para construir o modelo, no entanto, a sua validação pode ser efectuada noutro, e ainda, utilizar-se um outro para a geração das previsões com base no modelo inicialmente criado.

As actividades mais importantes envolvidas na definição do estudo são: perceber os seus limites, escolher o estudo a executar, determinar os elementos importantes (dados) a analisar, e seleccionar uma amostra.

1. Perceber os Limites

Na definição de um estudo há um conjunto de questões com as quais se é confrontado: Por onde começar ? Que dados devem ser examinados ? Que quantidade de dados (amostra) deve ser utilizada ? Até onde é que o estudo de DM conseguirá ir ? Por razões comerciais, o DM tem sido apelidado de processo milagroso. No entanto, muitas e variadas são as suas limitações. De seguida, apresentam-se algumas das questões relacionadas com essas limitações, assim como as respectivas respostas.

O DM não deverá encontrar todos os padrões relevantes mesmo que não se especifique o que se pretende ?

Ainda que a afirmação tenha algum fundo de verdade, as escolhas feitas na preparação dos dados e a sua forma de apresentação revelam minimamente aquilo que se pretende. Mesmo nos estudos não supervisionados, em que não é necessário especificar a variável dependente, as escolhas efectuadas perspectivam aquilo que se procura.

Como funcionará o DM se os dados forem "maus" ?

O DM não ignora dados "maus". Estes condicionam a qualidade do modelo que se possa obter. Após perceber o modelo, e as influências neste dos dados "maus", é possível melhorar a sua fiabilidade, filtrando-os do conjunto de dados.

Depois de se ter construído o modelo, porque razão se deve continuar a utilizar um sistema de DM ?

O DM é um processo que geralmente levanta questões assim que se analisam os resultados obtidos. Será que não existem outros estudos relacionados que possam/devam ser realizados, após um determinado estudo ? Será que não se deve aplicar o modelo obtido num novo conjunto de dados para testar a sua validade ? Estas e outras questões justificam a utilização contínua de um sistema de DM.

No caso de se efectuar um estudo e não se encontrar informação nova de utilidade, há alguma razão para se continuar com o DM ?

O DM nem sempre revelará algo de novo. No entanto, existem duas boas razões para se continuar a fazer estudos de DM. A primeira delas é a de que o DM serve de mecanismo de validação daquilo que já se assume como sendo verdadeiro. A segunda razão é pelo facto de permitir rapidamente detectar novas tendências. Por exemplo, é possível construir todos os meses o mesmo modelo, à custa da informação recém-chegada, e comparar os resultados para determinar continuidades ou alterações.

Quais as consequências para um estudo de DM de não estarem disponíveis dados importantes para a descoberta de conhecimento ?

Uma base de dados normalmente é concebida com outros propósitos que não a realização de estudos de DM, e frequentemente as propriedades ou atributos que simplificariam a tarefa de aprendizagem não se encontram presentes, nem podem ser facilmente obtidos. Dados inconclusivos criam problemas, uma vez que se alguns atributos essenciais ao conhecimento do domínio de aplicação não se encontram presentes nos dados, poderá ser impossível descobrir conhecimento novo com significado.

2. Escolha do Estudo

O estudo que se pretende efectuar deve ser colocado claramente, numa forma que possa ser facilmente enunciado, e ter um objectivo minimamente definido. Deverá ser fácil explicar em que medida o resultado esperado, potencialmente fornecerá uma solução a um determinado problema.

Exemplo de um estudo: O objectivo é o de determinar o perfil dos doentes que têm alergias e dos que não têm, de modo a que se possa melhorar o processo de tratamento, no futuro.

3. Elementos Importantes a Analisar

Por exemplo, quer se execute um estudo de clusterização, observe os dados visualmente, ou execute um estudo de classificação, o processo de selecção dos elementos a analisar é o mesmo. Numa primeira abordagem pode-se incluir todos os campos e deixar o DM indicar quais os que são mais importantes. Numa segunda fase, poder-se-á incluir todos esses campos ou seleccionar apenas os mais importantes dessa lista. Obviamente que se existirem pistas sobre os campos que devem ser analisados, estes podem ser imediatamente indicados.

4. Selecção do Conjunto de Dados (Amostra)

Uma questão que normalmente se coloca é a seguinte: Como se pode efectuar um estudo de DM apenas num subconjunto de dados e obter bons resultados, quando existem milhões de registos de informação ?

Um estudo de DM não obriga a que todo o conjunto de dados seja considerado para a construção do modelo. No entanto, a questão que de imediato pode ser colocada é a seguinte: Qual a dimensão mínima necessária do conjunto de dados ? Ainda que não possa ser dada realisticamente uma dimensão mínima, uma aproximação possível seria começar por uma pequena dimensão e sucessivamente ir efectuando o seu aumento, até abranger a totalidade do conjunto de dados. Se o modelo representar com precisão os dados, o aumento ao conjunto de dados não deverá alterar os resultados obtidos. Este processo de seleccionar um subconjunto de dados a partir do conjunto de dados total, pode ser feito através de técnicas de amostragem aleatória, normalmente incorporados nos sistemas de DM.

Caso um modelo seja válido, à custa dele, é possível efectuar previsões sobre outros conjuntos de dados, podendo os resultados obtidos serem comparados com os resultados reais, caso estes sejam conhecidos.