Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação com a análise combinando dados lidos de discos distintos. Marque a opção que representa os dois principais recursos do Hadoop para lidar com esses desafios:
R: HDFS e MapReduce
Quando grandes volumes de dados são armazenados, eles são replicados em outros servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo:
R: Namenode e Datanode.
O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos de dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes principais. Marque a opção que representa os três principais componentes que constituem a arquitetura do Apache Spark:
R: Driver Program, Cluster Manager e Workers.
Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante conhecer os componentes do modelo de programação do Spark, como o RDD – Resilient Distrubuted Datasets, as operações e o Spark Context. Marque a opção que representa o conceito do RDD:
R: Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória principal.
Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big Data, de forma que processam grandes volumes de dados. Marque a opção verdadeira em relação ao processamento no Apache Hadoop e no Apache Spark:
R: Tanto no Hadoop quanto no Spark, os módulos de processamento são integrados na própria ferramenta.