Logo Direção Concursos
Pesquisa
Banner artigos

Recursos para Análise de Dados do TCU 2022 (ATUALIZADO)

icons
icons
icons
icons
icons
Imagem do autor do artigo

Victor Dalton16/03/2022

16/03/2022

Olá amigos e amigas, tudo bem?

Depois de analisar, resolvemos propor cinco recursos para a prova de Análise de Dados.

Minha óbvia sugestão é que vocês deem mais corpo às propostas que estão aqui, até mesmo para que a personalização dos recursos permita que a banca não indefira recursos iguais. Infelizmente, alegar que algo não está no edital não nos permite discorrer demais, afinal, essencialmente, a argumentação é “não está lá porque não está lá”.

Enfim, vamos ao que interessa:

Questão 72:

A universidade YEDU implantou um sistema ERP (Enterprise Resource Planning) no final da década de 1990. Ao longo dos anos, foram feitas diversas customizações para atender novas demandas de negócio. (…)

Gabarito – implantar uma plataforma de gestão de dados mestre, possibilitando a elaboração de uma base única de alunos a partir das informações mais representativas disponíveis em cada sistema, base única que será usada para atualizar informações com falhas de digitação nos sistemas de origem.

Sugestão de recurso(c/ Gabriel Pacheco): Solicito a anulação da referida questão, uma vez que Gestão de Dados Mestre (Master Data Management) não é um assunto contido no edital do certame, e nem é possível deduzir a sua presença em nenhum outro tópico do edital. Record Linkage (pareamento de dados) é uma das possíveis aplicações no contexto de MDM, e não seria possível ao candidato inferir o estudo de um assunto mais amplo, uma vez que um conteúdo mais específico foi explicitado em edital.

Considerações adicionais: MDM é o assunto mais amplo: RL é o tópico dentro de MDM. Não pode a banca, a meu ver, cobrar um conteúdo mais genérico. É como se eu colocasse no edital “gênero e espécie”, em Biologia e cobrasse uma questão sobre Reinos.

Questão 74: Uma organização está implementando um sistema de busca de informações interno, e a equipe de desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais

Gabarito – Word2Vec, GloVe;

Sugestão de recurso – Solicito a anulação da referida questão, uma vez que o conhecimento técnico sobre GloVe extrapola o conteúdo programático do edital, e nem é possível deduzir a sua presença em nenhum outro tópico do edital.. A questão não exige do candidato conhecimento sobre o algoritmo do GloVe, mas sim sobre a capacidade de armazenamento em cache, o que demanda compreender aspectos técnicos sobre GloVe. Se a intenção original da banca era ir além dos conhecimentos teóricos do algoritmo, poderia tê-lo explicitado no edital, a exemplo do NLTK, que foi descrito dentre as bibliotecas a serem estudadas. Ao exigir conhecimentos técnicos específicos sobre uma biblioteca não elencada no edital, entendo que a questão extrapola o mesmo, devendo então ser anulada.

Questão 73:

Conjuntos de dados identificados de pessoas são úteis em pesquisas, ao mesmo tempo que são motivo de preocupação em relação à privacidade….

Gabarito – a) CPF – Cadastro de Pessoas Físicas, b) quadro clínico e c)gênero;

Sugestão de recurso(c/ Gabriel Pacheco)- Solicito a anulação da referida questão, uma vez que sua redação é ambígua e permite múltiplas interpretações. Ao exigir do candidato a classificação de atributos identificadores “sob a observância” da LGPD, o candidato é levado à confusão, uma vez que a referida lei não possui o conceito de “quasi identificadores”. De fato, a LGPD possui somente os conceitos de dado pessoal e dado pessoal sensível. Ainda, destaco que, da forma que foi redigida, a questão induz o candidato a fazer a analogia de dado pessoal com identificador explícito, assim como dado pessoal sensível com identificadores sensíveis. Assim sendo, duas alternativas se apresentam como corretas, confundindo o candidato que não encontra o conceito de “quasi identificadores” na referida lei. Isto posto, reitero a solicitação para a anulação da referida questão.

Questão 71:

Considere os documentos A e B a seguir.
A = “Há pessoas que choram por saber que as rosas têm espinho”

Gabarito – [0,log2/11,0,0,0,log2/11]

Sugestão de recurso (Professor Rafael Bittencourt) – Prezado(a), examinador. Na referida questão, pede-se para calcular a submatriz de TF-IDF para os tokens “Rosas”, “Choram” e “Sorriem” a partir de dois textos informados A e B.

Contudo, nos âmbito dos textos A e B, as supramencionadas palavras estavam em letra minúscula (“rosas”, “choram” e “sorriem”) que são strings distintas de “Rosas”, “Choram” e “Sorriem”, o que resultaria em um erro lógico e uma matriz zerada, dado que são tokens distintos e que não aparecem no texto.
Esse equívoco, ainda que pareça inofensivo para resolução da questão, quando se trata de PLN constitui um grave equívoco, pois, uma das etapas usuais de pré-processamento é uniformizar os tokens em minúsculo e até mesmo, para alguns casos, a remoção de acentos. Ou seja, faz-se isso justamente para que na análise subsequente uma mesma palavra não seja considerada um token distinto por conta do uso de caracteres em minúsculo/maiúsculo.

O padrão Unicode, o qual é usado por encoders tal como utf-8, atribui códigos distintos as letras maiúsculas e minúsculas. Uma simples linha de código em Python “Choram” == “choram” mostrará que se trata de tokens distintos, pois isso retornará False.
Por todo exposto, considerando que a questão versa sobre PLN, onde tokens para ser considerados iguais precisam estar estritamente escritos iguais, pede-se a anulação da questão pois a resposta correta seria uma matriz zerada.

Questão 75

Durante o treinamento de uma rede neural artificial para classificação de imagens, foi observado o comportamento descrito pelo gráfico abaixo(…)

Gabarito – Validação cruzada, Dropout;

Sugestão de Recurso (Rafael Bittencourt) – Prezado(a) examinador(a), pede-se a anulação da questão X pelos motivos que serão elencados a seguir.

A questão discorre sobre o treinamento de uma rede neural para classificação de imagens, onde o dataset disponível foi subdivido em 60%/30%/10% (treinamento/validação/teste). Nesse sentido, exibe-se um gráfico que mostra a relação do Erro de Treinamento e Erro de Validação com o número de iterações.

Dito isso, o enunciado traz que os especialistas envolvidos consideraram o modelo obtido insatisfatório após analisarem o gráfico e pede-se, considerando tais informações, “duas técnicas que poderiam ser utilizadas para contornar o problema encontrado”.

Ademais, o Overfitting também pode se dar em relação ao conjunto de Teste, quando a escolha dos hiperparâmentros é feita a partir da avaliação do desempenho do modelo em relação ao conjunto de teste, razão pela qual sugere-se a escolha de tais parâmetros por meio de Validação Cruzada.

Ou seja, faz-se necessário investigar as possíveis causas para o Overfitting para que o remédio adequado seja empregado, contudo, a questão não fornece qualquer informação adicional como, por exemplo: i) quantidade de dados disponíveis: ii) o número de features usados em relação ao total iii) quais camadas (layers) foram usadas no modelo iv) quais parâmetros foram selecionados.

De certo, técnicas como Parada Precoce (EarlyStopping) associada, por exemplo, a uma métrica de função de perda como Cross Entropy, Dropout, outras técnicas de Regularização em geral e até Validação Cruzada poderiam ser empregados para contornar o Overfitting, o que depende da análise das possíveis causas.

Dropout, por exemplo, não resolveria se o problema do Overfitting decorresse de um excesso de iterações no treinamento.

De todo modo, sem as informações necessárias e olhando apenas o gráfico, é possível extrair o entendimento de que o problema decorreria de um excesso de iterações no treinamento, assim, o EarlyStopping (Parada Precoce) com a função de perda Cross Entropy poderia ser empregado para interromper o treinamento quando não houvesse ganho na minimização da entropia cruzada para o conjunto de dados de validação.

Por  conseguinte, dada a ausência de informações adicionais da questão, o que impossibilita delimitar possíveis causas adicionais de overfitting e, consequentemente, se o Dropout seria ou não um dos métodos adequados, considera-se prejudicada a escolha das técnicas para combater o overfitting, razão pela qual se pede a anulação da questão.

Referências:
https://www.tensorflow.org/tutorials/keras/overfit_and_underfit
https://scikit-learn.org/stable/modules/cross_validation.html
 GÉRON, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. 2019, O’Reilly Media. Edição do Kindle.
 Deep Learning: A Comprehensive Guide to Python Coding and Programming Machine Learning and Neural Networks for Data Analysis (Python Programming Deep Learning). 2020. Edição do Kindle.

Considerações finais – Já fiz minha manifestação nas redes a respeito da prova. Entendo, de verdade, que o TCU fracassou na sua seleção de cientistas de dados e transformou esta parte da prova em verdadeira loteria. Se algo pode ficar de lição neste concurso é que, quando nos deparamos com uma matéria sendo cobrada com profundidade muito além da esperada, o ideal é PULAR tal parte e voltar nela somente no final, para garantir os pontos das partes da prova cuja cobrança seja razoável. Desconfio que os aprovados neste certame serão aqueles que ABANDONARAM a parte de análise de dados ao longo da prova, e voltaram no final para marcar somente aquilo que podiam. A dura verdade é que pessoas que passaram mais de hora nesta parte da prova tiveram pontuação bem similar com quem passou por lá poucos minutos e saiu chutando. É triste, mas é a verdade.

Me siga no Instagram @profvictordalton! Nosso objetivo é estar com vocês até a aprovação!

Victor Dalton

Victor Dalton

Professor de Informática, Tecnologia da Informação e Regimento Interno da Câmara dos Deputados. Foi Analista de Planejamento e Orçamento do MPOG, Analista do Banco Central do Brasil e Analista Legislativo da Câmara dos Deputados. Formado em Engenharia da Computação pelo IME. Possui certificações ITIL Foundation e Cobit Foundation.

Tenha acesso completo a todo o conteúdo do Direção Concursos

Acesse todas as aulas e cursos do site em um único lugar.

Cursos Preparatórios para Concursos Públicos em destaque

1 | 11

Receba nossas novidades!

Fique por dentro dos novos editais e de todas as principais notícias do mundo dos concursos.

Utilizamos cookies para proporcionar aos nossos usuários a melhor experiência no nosso site. Você pode entender melhor sobre a utilização de cookies pelo Direção Concursos e como desativá-los em saiba mais.