O machine learning pode ser usado como uma tecnologia para identificar transações que podem ser fraudulentas. Uma instituição que faz operações de crédito precisa analisar se um novo cliente tem potencial de tornar-se inadimplente; assim, utiliza-se de uma base que contém dados de transações bancárias de 5 mil clientes dos últimos cinco anos, em que há a informação completa de financiamentos, cartões de crédito e compras realizadas e, ainda, se houve dívidas não pagas.
Nesse contexto, pode-se afirmar:
R: O problema tem uma base catalogada, e, assim pode-se utilizar o aprendizado supervisionado e, ainda, o algoritmo Naive Bayes ou SVM na classificação.
Ultimamente, com a crescente utilização de técnicas e ferramentas de Big Data, grande parte das empresas estão decidindo armazenar seus dados em nuvem e mais recentemente em bancos de dados NoSQL. Qual profissional está apto a trabalhar e manter sistemas de dados com essas tecnologias?
R: Engenheiro de dados.
Diversos materiais na Internet definem a ciência de dados como responsável apenas pelo processamento de dados. Entretanto, ela é responsável por outras etapas extremamente importantes para o uso de dados. Qual alternativa mostra a sequência correta de todas as etapas do ciclo da ciência de dados?
R: Entender o problema, coletar os dados, armazenar os dados, processar os dados, explorar as informações dos resultados, comunicar os resultados e fornecer feedback.
A partir da Lei Geral de Proteção de Dados (LGPD), as instituições devem ter o devido cuidado nos processos de ciência de dados, a fim de garantir a eficiência necessária com o cumprimento das normas.
Um sistema, alocado na Internet, solicita ao usuário dados pessoais e os armazena em uma base de dados relacional confiável, à qual somente a própria empresa tem acesso, utilizando-a para o fim de marketing. De acordo com a Lei Geral da Proteção de Dados e as fases de coleta e descarte do processo de ciência de dados, pode-se afirmar que:
R: o usuário pode solicitar a qualquer momento uma cópia dos dados, bem como compreender para que fim estão sendo utilizados
A união de bases de dados similares, para tentar melhorar a análise dos dados, é uma tarefa comum em ciência de dados.
Dado que uma base de dados A contém dados íntegros, com grande confiabilidade e com campos similares aos de uma base de dados B, ambas as bases poderiam ser usadas para analisar um conjunto de dados. No entanto, na base B, verifica-se que 65% de seu total de campos está nulo, e muitos dados contêm erros relacionados ao formato. Qual seria uma boa estratégia a ser adotada dentro dos processos de ciência de dados?
R: A base A será mantida, pois contém dados confiáveis, e a base B será descartada.