Big Data – Uma visão Geral

Os dados podem ser considerados recursos ativos gerados automaticamente em toda atividade exercida; se tratados e analisados têm grande valor para o mercado. Assinale a alternativa que contempla a definição correta sobre o dado.​​​​​​​

R: É uma quantidade de fatos não analisados.


Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário:

Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis.

Diante do exposto, qual é a solução possível no contexto de big data?

R: É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.


A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade.

Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas:

R: Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural.


Em um contexto geral, o Data Lake representa um repositório para grandes quantidades de dados. Portanto, pode-se afirmar que o Data Lake é:

R: uma tecnologia para Big Data.


A visualização de dados, também chamada de DataViz, precisa ser muito bem elaborada, pois ela é o produto do esforço do cientista de dados. Pensando nisso, entre as bibliotecas a seguir, quais têm foco ​​​​​​​em visualização de dados?

R: Matplotlib e Seaborn.


Deixe um comentário