Quando grandes volumes de dados são armazenados, eles são replicados em outros servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo:
R: Namenode e Datanode.
Algumas vantagens com a adoção da visualização de dados no processo de descoberta do conhecimento em big data podem ser elencadas.
Tomando como base o resultado da pesquisa apresentado por Wang et al. (2015), qual seria o principal benefício do uso da visualização de dados?
R: Melhoria no processo de tomada de decisão.
Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação com a análise combinando dados lidos de discos distintos. Marque a opção que representa os dois principais recursos do Hadoop para lidar com esses desafios
R: HDFS e MapReduce.
O Spark Streaming fornece uma abstração de alto nível para representar um fluxo contínuo de dados. Marque a opção que representa a abstração de alto nível fornecida pelo Spark Streaming.
R: DStream.
Muitas linguagens de programação estão disponíveis, mas, dentro do contexto de análise de dados e do desenvolvimento de visualização de dados, há duas que são mais amplamente utilizadas. Escolha a opção verdadeira.
R: Python e R.