Análise de Dados para Concursos: como estudar

A matéria de Análise de dados está cada vez mais presente nos concursos públicos, e com conteúdo avançado. Vejamos o conteúdo programático, por exemplo, do concurso do TCU (Tribunal de Contas da União):ANÁLISE DE DADOS: 1 Dados estruturados e não estruturados. Dados abertos. Coleta, tratamento, armazenamento, integração e recuperação de dados. Processos de ETL. Formatos e tecnologias: XML, JSON, CSV. Representação de dados numéricos, textuais e estruturados; aritmética computacional. Representação de dados espaciais para georeferenciamento e geosensoriamento. 2 Bancos de dados relacionais: teoria e implementação. Uso do SQL como DDL, DML, DCL. Processamento de transações. 3 Exploração de dados: conceituação e características. Noções do modelo CRISP-DM. Técnicas para pré-processamento de dados. Técnicas e tarefas de mineração de dados. Classificação. Regras de associação. Análise de agrupamentos (clusterização). Detecção de anomalias. Modelagem preditiva. 4 Conceitos de PLN: semântica vetorial, redução de dimensionalidade, modelagem de tópicos latentes, classificação de textos, análise de sentimentos, representações com n-gramas. 5 Conceitos de ML: fontes de erro em modelos preditivos, validação e avaliação de modelos preditivos, underfitting, overfitting e técnicas de regularização, otimização de hiperparâmetros, separabilidade de dados, redução da dimensionalidade. Modelos lineares, árvores de decisão, redes neurais feed-forward, classificador Naive Bayes. 6 Linguagem Python: sintaxe, variáveis, tipos de dados e estruturas de controle de fluxo. Estruturas de dados, funções e arquivos. Bibliotecas: NLTK, Tensor Flow, Pandas, Numpy, Arrow, Sklearn, Scipy. 7 Noções da Linguagem R. Sintaxe, tipos de dados, operadores, comandos de repetição, estruturas de dados, gráficos, Data frames. Tidyverse. 8 Pareamento de dados ( record linkage). Processo e etapas. Classificação. Qualidade de dados pareados. Análise de dados pareados.Afinal de contas, o que é esse conteúdo?Vamos separar por partes:PARTE 1 – BANCO DE DADOS “TRADICIONAL”1 Dados estruturados e não estruturados. Dados abertos. Coleta, tratamento, armazenamento, integração e recuperação de dados. Processos de ETL. Formatos e tecnologias: XML, JSON, CSV. Representação de dados numéricos, textuais e estruturados; aritmética computacional. Representação de dados espaciais para georeferenciamento e geosensoriamento. 2 Bancos de dados relacionais: teoria e implementação. Uso do SQL como DDL, DML, DCL. Processamento de transações. 3 Exploração de dados: conceituação e características. Noções do modelo CRISP-DM. Técnicas para pré-processamento de dados. Técnicas e tarefas de mineração de dados. Classificação. Regras de associação. Análise de agrupamentos (clusterização). Detecção de anomalias. Modelagem preditiva.Este conteúdo não é verdadeiramente novo, pois é um conteúdo típico de Banco de Dados, que muitas vezes é vista em conjunto com a parte de SQL, DataWarehouse, DataMining, ETL, dentre outros.No entanto, a segunda parte é a mais interessante. Vem comigo!PARTE 2 – Processamento de Linguagem Natural e Machine Learning4 Conceitos de PLN: semântica vetorial, redução de dimensionalidade, modelagem de tópicos latentes, classificação de textos, análise de sentimentos, representações com n-gramas. 5 Conceitos de ML: fontes de erro em modelos preditivos, validação e avaliação de modelos preditivos, underfitting, overfitting e técnicas de regularização, otimização de hiperparâmetros, separabilidade de dados, redução da dimensionalidade. Modelos lineares, árvores de decisão, redes neurais feed-forward, classificador Naive Bayes.Aqui o conteúdo fica mais interessante! Afinal de contas, estamos falando de Processamento de Linguagem Natural (PLN) e Machine Learning. Mas o que são esses conceitos?Processamento de Linguagem Natural é a utilização de código computacional para processar texto em larga escala. Um exemplo: você acha que a Amazon pega o feedback dos produtos vendidos e coloca alguém pra ler essas análises? Acho que não… se eu fosse chutar, diria que eles usam NLTK para tokenizar as palavras e frases, com métodos como word_tokenize e sent_tokenize. Além disso, eles são capazes de analisar as palavras que mais aparecem nestas análises para identificar os tópicos dos produtos que são mais destacados. Ainda, ao analisar tais palavras, com seus respectivos unigramas, bigramas, trigramas ou n-gramas, será possível prever o sentimento daquele texto, a exemplo de saber se o feedback é positivo ou não. Fora a. possibilidade de classificação em categorias, utilizando algoritmos como Tf-Idf (term frequency, inverse distribution frequency), que permitem selecionar as palavras que verdadeiramente identificam um documento, desprezando palavras que aparecem de maneira geral em qualquer documento.Quanto ao Machine Learning, trata-se de empregar técnicas que permitam ao computador “aprender” com um conjunto de dados. Tal aprendizado pode ser: 1) supervisionado(por meio de variáveis preditoras (features) cujas variáveis alvo (target) possuem rótulos já conhecidos (labels); 2) não supervisionado, por meio do agrupamento (clustering) de dados com características semelhantes, mas sem a existência de categorias predefinidas; e 3) por reforço, que é um aprendizado híbrido, no qual a máquina busca determinados comportamentos, e a intervenção humana é pontual para estimular ou desestimular determinados passos. Mas o mais legal vem agora…. A propósito, eu nem me apresentei. Meu nome é @profvictordalton (Victor Dalton), Engenheiro da Computação pelo IME e professor de Informática e Tecnologia da Informação no @direcaoconcursos, e especialista em Ciência de Dados. Então voltemos à última parte…PARTE 3 – PROGRAMAÇÃO6 Linguagem Python: sintaxe, variáveis, tipos de dados e estruturas de controle de fluxo. Estruturas de dados, funções e arquivos. Bibliotecas: NLTK, Tensor Flow, Pandas, Numpy, Arrow, Sklearn, Scipy. 7 Noções da Linguagem R. Sintaxe, tipos de dados, operadores, comandos de repetição, estruturas de dados, gráficos, Data frames. Tidyverse.Poxa, mas programação! O que isso tem a ver com a Análise de Dados? TUDO! Afinal, é programando que a Análise de Dados é feita…Em especial, Python e R são as linguagens do mercado mais utilizadas para Análise de Dados, daí o motivo de as duas estarem presentes no edital.Sobre R, além de aprender o básico da linguagem, é necessário aprender sobre o Tidyverse, que é um conjunto de funções que auxiliam na manipulação dos DataFrames, nos quais estarão os dados. Em Python, além de também precisarmos saber o básico da linguagem, aparecem a maior parte das bibliotecas listadas. Pandas e Numpy são bibliotecas básicas, fundamentais para manipular arrays e DataFrames (assim como no R). Arrow é biblioteca para manipulação do tempo (não tô falando do Dr Estranho com a joia do tempo, mas sim de formatos da data-hora, rs); SciPy é biblioteca científica, com funções matemáticas e estatísticas, dentre outros.Mas o melhor, claro, estou deixando para o final. NLTK, Natural Language ToolKit, é ferramenta para o Processamento de Linguagem Natural; Tensor Flow é biblioteca para redes neurais, que utiliza, dentre outros, o classificador Naive Bayes.E sklearn, o nosso sci-kit learn, é a mais poderosa de todas, em minha opinião, pois é ela quem condensa toda a parte de Machine Learning.Nesta biblioteca existem recursos como: KNeighborsClassifier, que implementa o k-nearest neighbors, algoritmo que utiliza o valor de k vizinhos para predizer o valor de um dado não rotulado;train_test_split – que separa as bases de dados em dados de treinamento e dados de testes, para construir e medir a eficácia de um modelo;LinearRegression, para criar um modelo de Regressão Linear;Lasso e Ridge, que são técnicas de regularização;confusion_matrix e classification_report – que auxiliam na validação e avaliação de modelos preditivos;DecisionTreeClassifier – que implementa uma árvore de decisão;KMeans – algoritmo que cria clusters;dendrogram e linkage (do SciPy) – que ajudam a criar uma visualização dos clustersE mais…..Diga-se de passagem, se você precisa de ajuda com conteúdo parecido com o apresentado aqui, nosso curso no Direção Concursos pode te ajudar. Confira no banner abaixo!No mais, não deixe de me seguir no meu Instagram @profvictordalton. Me manda um direct e diga o que achou do artigo!