Os dados podem ser considerados recursos ativos gerados automaticamente em toda atividade exercida; se tratados e analisados têm grande valor para o mercado. Assinale a alternativa que contempla a definição correta sobre o dado.
R: É uma quantidade de fatos não analisados.
Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário:
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis.
Diante do exposto, qual é a solução possível no contexto de big data?
R: É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.
A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade.
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas:
R: Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural.
Em um contexto geral, o Data Lake representa um repositório para grandes quantidades de dados. Portanto, pode-se afirmar que o Data Lake é:
R: uma tecnologia para Big Data.
A visualização de dados, também chamada de DataViz, precisa ser muito bem elaborada, pois ela é o produto do esforço do cientista de dados. Pensando nisso, entre as bibliotecas a seguir, quais têm foco em visualização de dados?
R: Matplotlib e Seaborn.