Apresentação

A Data Science Consulting tem o prazer de oferecer cursos de capacitação em Ciência de Dados, focados na criação de valor para um negócio a partir de fontes de dados. O trabalho do cientista de dados é um fluxo iterativo que inclui aquisição, visualização/análise, manipulação (wrangling), e modelagem estatística (Machine Learning).

Um ponto de partida é a metodologia BADIR, que inicia com a questão de negócios, passando por coleta, tratamento e análise, e termina com a comunicação e utilização dos insights (APIs, dashboards, relatórios):

Instrutor

Dan S. Reznik é fundador da Data Science Consulting, ex-Cientista de Dados da Microsoft e Doutor em Ciência da Computação pela UC-Berkeley. Dese 2012 já liderou 20 projetos de Ciência de Dados em várias empresas e setores. Há 10 anos leciona cursos de pós-graduação em Ciência dos Dados na Fundação Dom Cabral (FDC) e PUC-RJ.

Já capacitou centenas de alunos em várias áreas profissionais e estágios de carreira: TI, engenharia, negócios, jornalismo, advocacia, finanças etc.

Cursos Recentes

Ementa

Oferecemos dois formatos, básico (16h~24h) ou avançado (80~120h). Uma ementa adicional pode ser oferecida, customizada à projetos planejados ou em andamento no cliente. Tanto versões R como Python estão disponíveis.

Básico: 16h~24h

  • Introdução
    • Instalação do ecossistema (R ou Python)
    • O que é Ciência de Dados
    • Uso e navegação no Rstudio, uso no console
    • Tipos (numéricos, inteiros, strings, vetores, lógicos)
    • Scripts, funções, notebook
    • Dataframes: nrow, ncol, pipe, mutate, rename
    • Criação / leitura de csv, delimitador, locales
    • Manipulacao de datas
  • Data Wrangling
    • Funções principais de manipulação
    • Leitura arquivos excel, diretamente do site
    • Manipulação de dataframes, verbos básicos, operações retangulares
    • Iteração em colunas “lista”
    • Junção de dataframes (joins), fuzzyjoins
    • Sumarização: média, mediana, desvios padrões regex
  • Visualização de Dados
    • Tipos de gráficos: pontos, dispersão, barras, curvas, boxplots, histogramas
    • Adicionando estilos, camadas, faceteamento
    • Vizualização de Grafos e Redes

Avançado: 80h~120h

  • Introdução
    • O que é ciência de dados
    • Instalação do ferramental de desenvolvimento
    • Uso e navegação das ferramentas de desenvolvimento
    • Tipos e data structures: vetores, listas, dataframes
    • Funções, scripts, notebooks
  • Data Wrangling
    • Introdução à manipulação de dados
    • Criação de dataframes: manualmente, a partir de arquivos
    • Manipulação de dataframes, operações básicas, retangulares
    • Tipos de colunas: numéricas, strings, categóricas, datas
    • Junção de dataframes (joins)
  • Visualização de Dados
    • Tipos de graficos: pontos, dispersão, barras, curvas, boxplots, histogramas
    • Gráficos combinados, faceteamento
    • Melhores práticas em visualização
    • Gráficos animados
  • Modelagem de Dados
    • Cálculos estatísticos a partir de data frames: média, mediana, desvios padrões, diferença de médias
    • Algoritmos de modelagem: supervisionados vs não supervisionados
    • Exemplos de Regressão Linear, Árvores de Decisão, ANN, K-means, etc., com pacote mlr
    • Exemplos de treinamento, teste, cross-validation, ROC curve, precisão, recall, etc.
    • Manipulando muitos modelos juntos
  • Produção
    • Introdução a dashboards
    • Integração com PowerBI
    • Conexão com banco de dados
    • Uso de JSON
    • Criação e publicação de dashboards
    • Criação e operacionalização de modelos via REST API
    • Docker
  • Capstone Project
    • Definição do projeto
    • Orientação, Desenvolvimento
    • Documentação

Customizado

  • Seleção de um problema do cliente
  • Esqueleto da solução / plano de análise
  • Data Wrangling, Visualização
  • Publicação de resultados

Ecossistema

Trabalhamos com R e Python, utilizando pacotes estado-da-arte p/ preparo e modelagem de dados e os ecosistemas tidyverse (abaixo) e pandas.

Contato


Voltar à pagina da Data Science Consulting