Apresentação
A Data Science Consulting tem o prazer de
oferecer cursos de capacitação em Ciência de Dados, focados na
criação de valor para um negócio a partir de fontes de
dados. O trabalho do cientista de dados é um fluxo iterativo que inclui
aquisição, visualização/análise, manipulação (wrangling), e modelagem
estatística (Machine Learning).

Um ponto de partida é a metodologia BADIR, que inicia com
a questão de negócios, passando por coleta, tratamento e análise, e
termina com a comunicação e utilização dos insights (APIs, dashboards,
relatórios):

Instrutor

Dan S.
Reznik é fundador da Data Science
Consulting, ex-Cientista de Dados da Microsoft e Doutor em Ciência
da Computação pela UC-Berkeley. Dese 2012 já liderou 20 projetos de
Ciência de Dados em várias empresas e setores. Há 10 anos leciona cursos
de pós-graduação em Ciência dos Dados na Fundação Dom Cabral (FDC) e
PUC-RJ.
Já capacitou centenas de alunos em várias áreas profissionais e
estágios de carreira: TI, engenharia, negócios, jornalismo, advocacia,
finanças etc.
Ementa
Oferecemos dois formatos, básico (16h~24h) ou avançado (80~120h). Uma
ementa adicional pode ser oferecida, customizada à projetos planejados
ou em andamento no cliente. Tanto versões R como Python estão
disponíveis.
Básico: 16h~24h
- Introdução
- Instalação do ecossistema (R ou Python)
- O que é Ciência de Dados
- Uso e navegação no Rstudio, uso no console
- Tipos (numéricos, inteiros, strings, vetores, lógicos)
- Scripts, funções, notebook
- Dataframes: nrow, ncol, pipe, mutate, rename
- Criação / leitura de csv, delimitador, locales
- Manipulacao de datas
- Data Wrangling
- Funções principais de manipulação
- Leitura arquivos excel, diretamente do site
- Manipulação de dataframes, verbos básicos, operações
retangulares
- Iteração em colunas “lista”
- Junção de dataframes (joins), fuzzyjoins
- Sumarização: média, mediana, desvios padrões regex
- Visualização de Dados
- Tipos de gráficos: pontos, dispersão, barras, curvas, boxplots,
histogramas
- Adicionando estilos, camadas, faceteamento
- Vizualização de Grafos e Redes
Avançado: 80h~120h
- Introdução
- O que é ciência de dados
- Instalação do ferramental de desenvolvimento
- Uso e navegação das ferramentas de desenvolvimento
- Tipos e data structures: vetores, listas, dataframes
- Funções, scripts, notebooks
- Data Wrangling
- Introdução à manipulação de dados
- Criação de dataframes: manualmente, a partir de arquivos
- Manipulação de dataframes, operações básicas, retangulares
- Tipos de colunas: numéricas, strings, categóricas, datas
- Junção de dataframes (joins)
- Visualização de Dados
- Tipos de graficos: pontos, dispersão, barras, curvas, boxplots,
histogramas
- Gráficos combinados, faceteamento
- Melhores práticas em visualização
- Gráficos animados
- Modelagem de Dados
- Cálculos estatísticos a partir de data frames: média, mediana,
desvios padrões, diferença de médias
- Algoritmos de modelagem: supervisionados vs não supervisionados
- Exemplos de Regressão Linear, Árvores de Decisão, ANN, K-means,
etc., com pacote mlr
- Exemplos de treinamento, teste, cross-validation, ROC curve,
precisão, recall, etc.
- Manipulando muitos modelos juntos
- Produção
- Introdução a dashboards
- Integração com PowerBI
- Conexão com banco de dados
- Uso de JSON
- Criação e publicação de dashboards
- Criação e operacionalização de modelos via REST API
- Docker
- Capstone Project
- Definição do projeto
- Orientação, Desenvolvimento
- Documentação
Customizado
- Seleção de um problema do cliente
- Esqueleto da solução / plano de análise
- Data Wrangling, Visualização
- Publicação de resultados
Ecossistema
Trabalhamos com R e Python, utilizando pacotes estado-da-arte p/
preparo e modelagem de dados e os ecosistemas tidyverse
(abaixo) e pandas.
