Olá amigos e amigas, tudo bem?Depois de analisar, resolvemos propor cinco recursos para a prova de Análise de Dados. Minha óbvia sugestão é que vocês deem mais corpo às propostas que estão aqui, até mesmo para que a personalização dos recursos permita que a banca não indefira recursos iguais. Infelizmente, alegar que algo não está no edital não nos permite discorrer demais, afinal, essencialmente, a argumentação é “não está lá porque não está lá”.Enfim, vamos ao que interessa:Questão 72:A universidade YEDU implantou um sistema ERP (Enterprise Resource Planning) no final da década de 1990. Ao longo dos anos, foram feitas diversas customizações para atender novas demandas de negócio. (…)Gabarito – implantar uma plataforma de gestão de dados mestre, possibilitando a elaboração de uma base única de alunos a partir das informações mais representativas disponíveis em cada sistema, base única que será usada para atualizar informações com falhas de digitação nos sistemas de origem.Sugestão de recurso(c/ Gabriel Pacheco): Solicito a anulação da referida questão, uma vez que Gestão de Dados Mestre (Master Data Management) não é um assunto contido no edital do certame, e nem é possível deduzir a sua presença em nenhum outro tópico do edital. Record Linkage (pareamento de dados) é uma das possíveis aplicações no contexto de MDM, e não seria possível ao candidato inferir o estudo de um assunto mais amplo, uma vez que um conteúdo mais específico foi explicitado em edital.Considerações adicionais: MDM é o assunto mais amplo: RL é o tópico dentro de MDM. Não pode a banca, a meu ver, cobrar um conteúdo mais genérico. É como se eu colocasse no edital “gênero e espécie”, em Biologia e cobrasse uma questão sobre Reinos.Questão 74: Uma organização está implementando um sistema de busca de informações interno, e a equipe de desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriaisGabarito – Word2Vec, GloVe;Sugestão de recurso – Solicito a anulação da referida questão, uma vez que o conhecimento técnico sobre GloVe extrapola o conteúdo programático do edital, e nem é possível deduzir a sua presença em nenhum outro tópico do edital.. A questão não exige do candidato conhecimento sobre o algoritmo do GloVe, mas sim sobre a capacidade de armazenamento em cache, o que demanda compreender aspectos técnicos sobre GloVe. Se a intenção original da banca era ir além dos conhecimentos teóricos do algoritmo, poderia tê-lo explicitado no edital, a exemplo do NLTK, que foi descrito dentre as bibliotecas a serem estudadas. Ao exigir conhecimentos técnicos específicos sobre uma biblioteca não elencada no edital, entendo que a questão extrapola o mesmo, devendo então ser anulada.Questão 73:Conjuntos de dados identificados de pessoas são úteis em pesquisas, ao mesmo tempo que são motivo de preocupação em relação à privacidade….Gabarito – a) CPF – Cadastro de Pessoas Físicas, b) quadro clínico e c)gênero;Sugestão de recurso(c/ Gabriel Pacheco)- Solicito a anulação da referida questão, uma vez que sua redação é ambígua e permite múltiplas interpretações. Ao exigir do candidato a classificação de atributos identificadores “sob a observância” da LGPD, o candidato é levado à confusão, uma vez que a referida lei não possui o conceito de “quasi identificadores”. De fato, a LGPD possui somente os conceitos de dado pessoal e dado pessoal sensível. Ainda, destaco que, da forma que foi redigida, a questão induz o candidato a fazer a analogia de dado pessoal com identificador explícito, assim como dado pessoal sensível com identificadores sensíveis. Assim sendo, duas alternativas se apresentam como corretas, confundindo o candidato que não encontra o conceito de “quasi identificadores” na referida lei. Isto posto, reitero a solicitação para a anulação da referida questão.Questão 71:Considere os documentos A e B a seguir.A = “Há pessoas que choram por saber que as rosas têm espinho”Gabarito – [0,log2/11,0,0,0,log2/11]Sugestão de recurso (Professor Rafael Bittencourt) – Prezado(a), examinador. Na referida questão, pede-se para calcular a submatriz de TF-IDF para os tokens “Rosas”, “Choram” e “Sorriem” a partir de dois textos informados A e B.Contudo, nos âmbito dos textos A e B, as supramencionadas palavras estavam em letra minúscula (“rosas”, “choram” e “sorriem”) que são strings distintas de “Rosas”, “Choram” e “Sorriem”, o que resultaria em um erro lógico e uma matriz zerada, dado que são tokens distintos e que não aparecem no texto.Esse equívoco, ainda que pareça inofensivo para resolução da questão, quando se trata de PLN constitui um grave equívoco, pois, uma das etapas usuais de pré-processamento é uniformizar os tokens em minúsculo e até mesmo, para alguns casos, a remoção de acentos. Ou seja, faz-se isso justamente para que na análise subsequente uma mesma palavra não seja considerada um token distinto por conta do uso de caracteres em minúsculo/maiúsculo.O padrão Unicode, o qual é usado por encoders tal como utf-8, atribui códigos distintos as letras maiúsculas e minúsculas. Uma simples linha de código em Python “Choram” == “choram” mostrará que se trata de tokens distintos, pois isso retornará False.Por todo exposto, considerando que a questão versa sobre PLN, onde tokens para ser considerados iguais precisam estar estritamente escritos iguais, pede-se a anulação da questão pois a resposta correta seria uma matriz zerada.Questão 75Durante o treinamento de uma rede neural artificial para classificação de imagens, foi observado o comportamento descrito pelo gráfico abaixo(…)Gabarito – Validação cruzada, Dropout;Sugestão de Recurso (Rafael Bittencourt) – Prezado(a) examinador(a), pede-se a anulação da questão X pelos motivos que serão elencados a seguir.A questão discorre sobre o treinamento de uma rede neural para classificação de imagens, onde o dataset disponível foi subdivido em 60%/30%/10% (treinamento/validação/teste). Nesse sentido, exibe-se um gráfico que mostra a relação do Erro de Treinamento e Erro de Validação com o número de iterações.Dito isso, o enunciado traz que os especialistas envolvidos consideraram o modelo obtido insatisfatório após analisarem o gráfico e pede-se, considerando tais informações, “duas técnicas que poderiam ser utilizadas para contornar o problema encontrado”.Ademais, o Overfitting também pode se dar em relação ao conjunto de Teste, quando a escolha dos hiperparâmentros é feita a partir da avaliação do desempenho do modelo em relação ao conjunto de teste, razão pela qual sugere-se a escolha de tais parâmetros por meio de Validação Cruzada.Ou seja, faz-se necessário investigar as possíveis causas para o Overfitting para que o remédio adequado seja empregado, contudo, a questão não fornece qualquer informação adicional como, por exemplo: i) quantidade de dados disponíveis: ii) o número de features usados em relação ao total iii) quais camadas (layers) foram usadas no modelo iv) quais parâmetros foram selecionados.De certo, técnicas como Parada Precoce (EarlyStopping) associada, por exemplo, a uma métrica de função de perda como Cross Entropy, Dropout, outras técnicas de Regularização em geral e até Validação Cruzada poderiam ser empregados para contornar o Overfitting, o que depende da análise das possíveis causas.Dropout, por exemplo, não resolveria se o problema do Overfitting decorresse de um excesso de iterações no treinamento.De todo modo, sem as informações necessárias e olhando apenas o gráfico, é possível extrair o entendimento de que o problema decorreria de um excesso de iterações no treinamento, assim, o EarlyStopping (Parada Precoce) com a função de perda Cross Entropy poderia ser empregado para interromper o treinamento quando não houvesse ganho na minimização da entropia cruzada para o conjunto de dados de validação.Por conseguinte, dada a ausência de informações adicionais da questão, o que impossibilita delimitar possíveis causas adicionais de overfitting e, consequentemente, se o Dropout seria ou não um dos métodos adequados, considera-se prejudicada a escolha das técnicas para combater o overfitting, razão pela qual se pede a anulação da questão.Referências:https://www.tensorflow.org/tutorials/keras/overfit_and_underfithttps://scikit-learn.org/stable/modules/cross_validation.html GÉRON, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. 2019, O’Reilly Media. Edição do Kindle. Deep Learning: A Comprehensive Guide to Python Coding and Programming Machine Learning and Neural Networks for Data Analysis (Python Programming Deep Learning). 2020. Edição do Kindle.Considerações finais – Já fiz minha manifestação nas redes a respeito da prova. Entendo, de verdade, que o TCU fracassou na sua seleção de cientistas de dados e transformou esta parte da prova em verdadeira loteria. Se algo pode ficar de lição neste concurso é que, quando nos deparamos com uma matéria sendo cobrada com profundidade muito além da esperada, o ideal é PULAR tal parte e voltar nela somente no final, para garantir os pontos das partes da prova cuja cobrança seja razoável. Desconfio que os aprovados neste certame serão aqueles que ABANDONARAM a parte de análise de dados ao longo da prova, e voltaram no final para marcar somente aquilo que podiam. A dura verdade é que pessoas que passaram mais de hora nesta parte da prova tiveram pontuação bem similar com quem passou por lá poucos minutos e saiu chutando. É triste, mas é a verdade. Me siga no Instagram @profvictordalton! Nosso objetivo é estar com vocês até a aprovação!