Conhecimentos de Base Recomendados
A unidade curricular de Complementos de Estatística para Ciência de Dados está suportada nos conteúdos fundamentais de Estatística, com relevo para os fornecidos na unidade curricular de Análise Estatística de Dados. Os conhecimentos de programação proporcionados pela unidade curricular de Programação para Ciência de Dados são uma mais-valia.
Métodos de Ensino
As aulas são, de acordo com o que está determinado no plano curricular, teórico-práticas, planeadas e preparadas para terem um envolvimento ativo do estudante em vários momentos ou na totalidade da aula.
Na parte teórica, de introdução de conceitos, resultados fundamentais e métodos, será usado, tendencialmente, o método expositivo intercalado com tarefas que suscitem uma participação mais ativa de todos os estudantes (interactive lectures). Estas tarefas incluem a colocação de questões aos e pelos estudantes, de forma oral e/ou numa plataforma, e também com a proposta de debate/discussão em pequenos grupos sobre algum aspeto/tópico exposto.
A parte prática será destinada ao desenvolvimento pleno das competências elencadas, através da exemplificação comentada de procedimentos e/ou da resolução de problemas sob orientação/tutoria do docente, incentivando-se o trabalho autónomo ou em pequenos grupos, evoluindo para uma aprendizagem baseada em projeto, com a realização do trabalho. Far-se-á prevalecer uma forte interação entre a teoria e a prática, dando, tanto quanto possível, um papel central à visualização e ao tratamento de situações concretas e reais. A ferramenta informática a usar será, predominantemente, o Google Colab com a linguagem Python.
O bom acompanhamento das aulas por parte do estudante pressupõe uma presença assídua nas aulas e disponibilidade para que o seu envolvimento se mantenha para além das aulas, com o início ou conclusão das tarefas acordadas em aula.
Todos os materiais de apoio são disponibilizados na plataforma InforEstudante|Nonio, usando-se, complementarmente, a outras plataformas que se mostrem adequadas para interação.
Resultados de Aprendizagem
A análise e técnicas estatísticas desempenham um papel fundamental em Ciência de Dados, que começa, de acordo com a metodologia Cross-Industry Standard Process for Data Mining (CRISP-DM) e também com a Foundational Methodology for Data Science, no entendimento e na preparação dos dados, e que passa também por dar suporte à reamostragem e simulação. Assim, os objetivos e competências desta unidade curricular estão focados neste reconhecimento.
Objetivos:
- Examinar/Entender os dados no âmbito de um problema concreto de Ciência de Dados, usando as ferramentas estatísticas adequadas.
- Selecionar e executar sequencialmente as técnicas de preparação dos dados adequadas ao problema de Ciência de Dados a trabalhar, com foco especial nas técnicas estatísticas.
- Identificar oportunidades de aplicação de técnicas de reamostragem e simulação, executando-as em casos simples.
Competências:
- Integrar, em casos simples, dados de várias fontes para criar um conjunto de dados.
- Descrever o conjunto de dados, usando medidas e gráficos estatísticos.
- Executar a análise exploratória do conjunto de dados.
- Verificar a qualidade do conjunto de dados, de acordo com as dimensões de qualidade definidas.
- Efetuar a limpeza do conjunto de dados, com especial foco em outliers e valores omissos, aplicando técnicas estatísticas adequadas.
- Construir novas variáveis relevantes para o problema em mãos e/ou para redução de dimensionalidade.
- Selecionar variáveis, com base em critérios estatísticos não dependentes das técnicas de aprendizagem computacional a usar posteriormente, para eliminação de redundância e redução de dimensionalidade.
- Listar e aplicar adequadamente técnicas base de reamostragem.
- Delinear uma simulação simples.
- Implementar o código necessário em linguagem de programação Python.
Programa
1. Entendimento dos dados
1.1. Etapas e tarefas
1.2. Ferramentas estatísticas
1.3. O papel da Análise Exploratória de Dados
2. Preparação de dados
2.1. Etapas e tarefas
2.2. Ferramentas estatísticas: tratamento de valores omissos; tratamento de outliers; discretização, normalização e outras transformações; técnicas para eliminação de redundância; técnicas para redução de dimensionalidade.
3. Tópicos de Estatística Computacional
3.1. Introdução à reamostragem
3.2. Introdução à simulação
Docente(s) responsável(eis)
Estágio(s)
NAO
Bibliografia
Principal:
- Bruce, P., Bruce, A., Gedeck, P. (2020). Practical Statistics for Data Scientists, 2nd Edition. O’Reilly.
- Ciaburro, G. (2020). Hands-On Simulation Modeling with Python. Packt Publishing.
- Gama, J., Carvalho, A.P.L., Faceli, K., Lorena, A.C., Oliveira, M. (2017). Extração de Conhecimento de Dados (Data Mining), 3.ª Edição. Edições Sílabo.
- Jafari, R. (2022). Hands-On Data Preprocessing in Python. Packt Publishing.
- James, G., Witten, D., Hastie, T., Tibshirani, R., Taylor, J. (2023). An Introduction to Statistical Learning with Applications in Python. Springer. https://www.statlearning.com/
- Slides e hands-on disponibilizadas no InforEstudante|Nonio.
Complementar:
- García, S., Luengo, J., Herrera, F. (2014). Data Preprocessing in Data Mining. Springer.
- Hair, J.F., Black, W.C., Babin, B.J., Anderson, R.E. (2019). Multivariate Data Analysis, 8th Edition. Cengage.
- Kuhn, M., Johnson, K. (2020). Feature Engineering and Selection – A Practical Approach for Predictive Models. CRCPress.
- Moreira, J., Carvalho, A., Horvath, T. (2018). A General Introduction to Data Analytics. Wiley.
- Mount, G. (2021). Advancing into Analytics From Excel to Python and R. O’Reilly.