Big Data

Conhecimentos de Base Recomendados

São recomendados conhecimentos em bases de dados e programação. 

Métodos de Ensino

A atividade letiva decorre em regime presencial, com exposição de conceitos, técnicas e métodos, com grande enfoque em aplicações práticas. Será utilizado software de apoio à resolução de problemas no âmbito do programa.

Resultados de Aprendizagem

A geração e armazenamento de dados tem vindo a registar um assinalável crescimento, obrigando a processos de gestão e tratamento da informação cada vez mais complexos e abrangentes. Esta dinâmica observa-se nas mais variadas áreas, desde dados recolhidos nos cartões de fidelização, a dados disponibilizados em redes sociais em ambiente virtual, passando também por dados gerados automaticamente por aparelhos de análise clínica, entre outros.

Toda essa informação abre um vasto número de oportunidades, nomeadamente para as empresas e para o conhecimento em geral.

A unidade curricular de Big Data tem como objetivos dotar os alunos de conhecimentos no domino da análise de dados de grande dimensão, designadamente ao nível da recolha, processamento e disponibilização destes dados massivos, dando a conhecer aos alunos todo o ecossistema associado a este tipo de dados. 

Em termos de competências espera-se que o aluno seja capaz de:

  • Enumerar os conceitos associados ao tratamento de dados;
  • Utilizar algumas das tecnologias mais importantes neste domínio como o Hadoop ou o PySpark.

Programa

  1. Fundamentos de Big Data
  2. Armazenamento em Big Data
    1. Bases de dados relacionais
    2. Bases de dados NoSQL
  3. Processamento de dados em Big Data
    1. Hadoop Map Reduce
    2. Apache Spark
    3. PySpark
  4. Técnicas de análise de dados em Big Data

Docente(s) responsável(eis)

Estágio(s)

NAO

Bibliografia

– Doug Laney, “3D Data Management: Controlling Data Volume, Velocity, and Variety”, Gartner, February 2001.

– Stonebraker et al., “MapReduce and Parallel DBMS’s: Friends or Foes?”, Communications of the ACM, January 2010.

– Dean and Ghemawat, “MapReduce: A Flexible Data Processing Tool”, Communications of the ACM, January 2010.

– Rick Cattell, “Scalable SQL and NoSQL Data Stores”, SIGMOD Record, December 2010 (39:4).

– Ahuja, R.K., Magnanti, T.L., Orlin, J.B., 1993. Network flows: Theory, algorithms and applications, Prentice-Hall Inc, New Jersey, USA.

– Hair, J.F., Tatham, R.L., Anderson, R.E., Black, W., 1998. Multivariate data analysis, Prentice-Hall Inc, New Jersey, USA.

– Martins, P., Ladrón, A., Ramalhinho, H., 2014. Maximum cut-clique problem: ILS heuristics and a data analysis application, International Transactions in Operational Research 22(5), 775-809 (DOI: 10.1111/itor.12120).

– Elementos de apoio pedagógico elaborados pelo docente da disciplina.