Métodos de Ensino
As aulas são, de acordo com o que está determinado no plano curricular, teórico-práticas. Na parte teórica, de introdução de conceitos, resultados fundamentais e metodologias, será usado, predominantemente, o método
expositivo. A parte prática será destinada à exemplificação de procedimentos e resolução de problemas sob orientação do docente, mas incentivando-se o trabalho autónomo ou em pequenos grupos com suporte de uma ferramenta informática (predominantemente, Python). Far-se-á prevalecer uma forte interação entre a teoria e a prática.
O estudante será avaliado por um trabalho realizado no âmbito da unidade curricular e por uma prova escrita de avaliação final. Tanto o trabalho como a prova escrita são obrigatórios. A nota final será igual a 50% da nota do trabalho, mais 50% da nota da prova escrita.
Resultados de Aprendizagem
Nesta unidade curricular pretende-se que o estudante conheça as técnicas, com especial incidência nas estatísticas, vocacionadas para o entendimento e preparação de dados em tarefas de Ciência dos Dados, complementando e estruturando as já abordadas noutras unidades curriculares. O estudante deve ainda ser capaz de selecionar as mais adequadas e de as aplicar a um conjunto de dados de uma forma estruturada e com implementação, preferencialmente, em Python, seguindo a metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining).
Adicionalmente, pretende-se que o estudante conheça e execute técnicas simples de reamostragem e de simulação e que identifique situações concretas em que estas sejam adequadas.
Programa
1. Entendimento dos dados
1.1. Etapas e tarefas
1.2. Ferramentas estatísticas
2. Preparação de dados
2.1. Etapas e tarefas
2.2. Ferramentas estatísticas: tratamento de valores em falta; tratamento de outliers; discretização, normalização e outras transformações; técnicas para eliminação de redundância; técnicas para redução de dimensionalidade.
3. Tópicos de Estatística Computacional
3.1. Reamostragem
3.2. Simulação
Estágio(s)
NAO
Bibliografia
Bruce, P., Bruce, A., Gedeck, P. (2020). Practical Statistics for Data Scientists, 2nd Edition. O’Reilly Media.
Ciaburro, G. (2020). Hands-On Simulation Modeling with Python. Packt Publishing.
García, S., Luengo, J., Herrera, F. (2014). Data Preprocessing in Data Mining. Springer.
Hair, J.F., Black, W.C., Babin, B.J., Anderson, R.E. (2019). Multivariate Data Analysis, 8th Edition. Cengage.
Kuhn, M., Johnson, K. (2020). Feature Engineering and Selection – A Practical Approach for Predictive Models. CRCPress.
Moreira, J., Carvalho, A., Horvath, T. (2018). A General Introduction to Data Analytics. Wiley.