Gravatar

Henrique Lampert

Futuro engenheiro de computação. Gosta de tecnologia e ama programação.

Leia os últimos artigos publicados por Henrique Lampert.



Um pouco sobre correspondência de cadeias e árvores
Gravatar publicou em

Programação Ciência de Dados

Árvores estão entre as estruturas de dados mais estudadas dentro da Ciência da Computação. Diversas são as áreas em que comparações entre árvores são necessárias, como por exemplo em análise de imagens, comparação de textos estruturados, otimização de compiladores, inclusive algumas utilizações nem são exclusivas da computação, como é o caso da comparação de estruturas de RNA secundário em computação biológica.

Continue a ler...










Analisando o acidente do Titanic com Ciência de Dados
Gravatar publicou em

Ciência de Dados Tutoriais

Neste artigo vamos participar de um desafio de Ciência de Dados proposto pelo site Kaggle. O desafio consiste em analisar diversos dados de passageiros do Titanic e construir previsões sobre o destino de cada um na trágica noite do desastre.

O único requisito necessário é que o ambiente R esteja instalado na máquina. Recomendo baixar a IDE RStudio que provê algumas facilidades como: visualização de variáveis, amostragem de tabelas e gráficos, entre outros mimos. Outra possibilidade é baixar apenas o ambiente R básico por algum dos mirrors em http://cran.r-project.org/mirrors.html.

Bem, eu menti um pouco acima. Há outro requisito para começarmos a analisar os dados: os próprios dados. Cada desafio possui uma  página no Kaggle, a do nosso é www.kaggle.com/c/titanic-gettingStarted. No painel à esquerda clique em Data e baixe os arquivos train.csv  e test.csv. Faça login ou um novo cadastro quando for pedido.

O arquivo train.csv contém os dados para criação do modelo de previsão, incluindo a informação se o passageiro sobreviveu (1) ou não (0) na coluna Survived. Árvores aleatórias (Random forests) utilizam aprendizado supervisionado, ou seja, para construirmos o modelo é necessário incluir as saídas esperadas para cada entrada, por isso Survived é fornecida. O arquivo test.csv não contém esta informação e é com ele que iremos testar o modelo final de previsão.

Na mesma página do desafio, logo abaixo do link para os dados se encontra o link para enviarmos nossas previsões, mas falaremos mais sobre isso daqui a pouco.

Finalmente estamos prontos para começar o desafio. Mãos a obra!

Continue a ler...










Leia mais sobre: