Dados e IA

Glossário da ciência dos dados

Conteúdos gerados por IA

Teste A/B

Um método estatístico utilizado para comparar duas versões (A e B) de uma variável para determinar qual delas tem melhor desempenho. Envolve a realização de uma experiência controlada em que os utilizadores são aleatoriamente atribuídos a diferentes variações de uma caraterística do produto, página Web ou campanha de marketing. Os resultados são analisados para determinar a significância estatística e informar a tomada de decisões.

Deteção de anomalias

A identificação de itens raros, eventos ou observações que se desviam significativamente da maioria dos dados e levantam suspeitas. As anomalias podem indicar incidentes críticos, como fraudes bancárias, defeitos estruturais, problemas médicos ou erros de texto. As técnicas incluem métodos estatísticos, algoritmos de aprendizagem automática e abordagens de aprendizagem profunda.

Grandes volumes de dados

Conjuntos de dados extremamente grandes que são demasiado complexos para as aplicações tradicionais de processamento de dados. Os grandes dados são caracterizados pelos “5 Vs”: Volume (tamanho), Velocidade (velocidade de geração), Variedade (diferentes formas), Veracidade (qualidade e exatidão) e Valor (utilidade). Ferramentas especializadas como Hadoop, Spark e bases de dados NoSQL são normalmente utilizadas para processar e analisar grandes volumes de dados.

Causalidade

Uma relação em que a alteração de uma variável influencia diretamente ou produz uma alteração noutra variável. O estabelecimento da causalidade exige normalmente experiências controladas ou técnicas estatísticas avançadas, como os métodos de inferência causal. A compreensão das relações causais é crucial para fazer previsões fiáveis e intervenções eficazes.

Classificação

Uma técnica de aprendizagem supervisionada em que o algoritmo aprende a partir de dados de treino marcados e utiliza esta aprendizagem para classificar dados novos e não vistos em categorias predefinidas. Os algoritmos de classificação mais comuns incluem a regressão logística, as árvores de decisão, as florestas aleatórias, as máquinas de vectores de suporte e as redes neuronais.

Agrupamento

Uma técnica de aprendizagem não supervisionada que agrupa pontos de dados semelhantes com base nas suas caraterísticas intrínsecas. Na ciência dos dados, o agrupamento ajuda a identificar agrupamentos naturais nos dados sem rótulos predefinidos. Os algoritmos de agrupamento mais populares incluem K-means, agrupamento hierárquico, DBSCAN e modelos de mistura gaussiana.

Correlação

Uma medida estatística que expressa o grau em que duas variáveis estão linearmente relacionadas. Os coeficientes de correlação variam de -1 a +1, com valores mais próximos de +1 ou -1 indicando relações positivas ou negativas mais fortes, respetivamente. As medidas de correlação comuns incluem o r de Pearson, a classificação de Spearman e o tau de Kendall.

Validação cruzada

Uma técnica de avaliação de modelos que avalia o grau de generalização de um modelo para um conjunto de dados independente. Envolve a partição dos dados em vários subconjuntos, o treino do modelo em alguns subconjuntos (conjuntos de treino) e a sua validação noutros (conjuntos de validação). Os métodos mais comuns incluem a validação cruzada k-fold, a validação cruzada leave-one-out e a validação cruzada estratificada.

Engenharia de dados

A disciplina centrava-se na conceção, construção e manutenção da infraestrutura e da arquitetura para a geração, armazenamento e análise de dados. Os engenheiros de dados desenvolvem pipelines de dados, criam armazéns de dados e asseguram a disponibilidade, consistência e qualidade dos dados para os cientistas e analistas de dados.

Extração de dados

O processo de descoberta de padrões, correlações, anomalias e informações úteis a partir de grandes conjuntos de dados, utilizando métodos na intersecção da aprendizagem automática, estatística e sistemas de bases de dados. A extração de dados engloba tarefas como a aprendizagem de regras de associação, o agrupamento, a classificação e a regressão.

Pipeline de dados

Uma série de processos que extraem dados de várias fontes, transformam-nos num formato útil e carregam-nos num sistema para análise ou armazenamento. Os pipelines de dados automatizam o fluxo de dados, garantindo consistência, fiabilidade e eficiência no processamento de dados. Os pipelines de dados modernos incluem frequentemente capacidades de processamento em tempo real.

Pré-processamento de dados

A transformação de dados em bruto num formato limpo e estruturado adequado para análise. Esta etapa crucial inclui o tratamento de valores em falta, a remoção de duplicados, a normalização, a padronização, a codificação de variáveis categóricas e o escalonamento de caraterísticas. Um pré-processamento eficaz tem um impacto direto na qualidade das informações obtidas a partir dos dados.

Ciência dos dados

Um domínio interdisciplinar que utiliza métodos, processos, algoritmos e sistemas científicos para extrair conhecimentos e ideias de dados estruturados e não estruturados. A ciência dos dados combina conhecimentos especializados em estatística, matemática, informática, conhecimento do domínio e visualização de dados para resolver problemas analíticos complexos e conduzir a tomada de decisões com base em dados.

Visualização de dados

A representação gráfica de informações e dados utilizando elementos visuais como quadros, gráficos, mapas e dashboards. Uma visualização de dados eficaz ajuda a comunicar relações e padrões de dados complexos de forma intuitiva, tornando as informações mais acessíveis às partes interessadas. As ferramentas comuns incluem Tableau, Power BI, matplotlib e D3.js.

Organização de dados

O processo de transformação e mapeamento de dados em bruto para outro formato, de modo a torná-los mais adequados para análise. Isto inclui a limpeza, estruturação, enriquecimento, validação e publicação de dados. A manipulação de dados consome normalmente 60-80% do tempo de um cientista de dados, mas é essencial para garantir resultados analíticos fiáveis.

Base de dados

Uma coleção organizada de dados estruturados armazenados e acedidos eletronicamente. As bases de dados são concebidas para armazenar, recuperar e gerir dados de forma eficiente, de acordo com as necessidades dos utilizadores e das aplicações. Os tipos incluem bases de dados relacionais (MySQL, PostgreSQL), bases de dados NoSQL (MongoDB, Cassandra), bases de dados de séries temporais e bases de dados de gráficos.

Análise descritiva

O exame de dados históricos para compreender o que aconteceu no passado. Este tipo de análise resume os dados em bruto e apresenta padrões, tendências e relações através de medidas de tendência central, dispersão e visualização. A análise descritiva responde à pergunta “O que aconteceu?” e constitui a base para uma análise mais avançada.

Redução da dimensionalidade

Técnicas utilizadas para reduzir o número de caraterísticas num conjunto de dados, preservando o máximo de informação possível. Isto aborda a “maldição da dimensionalidade” e melhora o desempenho do modelo através da remoção de caraterísticas redundantes ou irrelevantes. Os métodos mais comuns incluem a análise de componentes principais (PCA), t-SNE e autoencoders.

ETL (Extrair, Transformar, Carregar)

Um processo de três fases utilizado para recolher dados de várias fontes, transformá-los de modo a satisfazerem as necessidades operacionais e carregá-los numa base de dados de destino ou num armazém de dados. O ETL é fundamental para as estratégias de integração de dados e garante a consistência dos dados em diferentes sistemas e aplicações. As abordagens modernas podem utilizar ELT (Extract, Load, Transform) ao trabalhar com lagos de dados.

Análise Exploratória de Dados (AED)

Uma abordagem crítica à análise de conjuntos de dados para resumir as suas principais caraterísticas, utilizando frequentemente métodos visuais. A EDA ajuda a identificar padrões, detetar anomalias, testar hipóteses e verificar pressupostos antes de aplicar técnicas mais sofisticadas. Normalmente, envolve estatísticas resumidas, análise de correlação e visualizações como histogramas, gráficos de dispersão e gráficos de caixa.

Engenharia de recursos

O processo de seleção, modificação ou criação de caraterísticas (variáveis) a partir de dados brutos para melhorar o desempenho do modelo de aprendizagem automática. Este processo pode envolver técnicas como a codificação one-hot, binning, escalonamento, caraterísticas polinomiais ou a criação de variáveis específicas do domínio. Uma engenharia de caraterísticas eficaz requer conhecimento do domínio e resolução criativa de problemas.

Teste de hipóteses

Um método estatístico utilizado para fazer inferências sobre uma população com base em dados de amostra. Envolve a formulação de uma hipótese nula e de uma hipótese alternativa, a recolha de dados, o cálculo de estatísticas de teste e a determinação da rejeição da hipótese nula com base num nível de significância pré-determinado (normalmente 0,05).

KPI (Indicador-chave de desempenho)

Medidas quantificáveis utilizadas para avaliar o sucesso de uma organização, projeto ou atividade específica no cumprimento dos objectivos. Na ciência dos dados, os KPIs ajudam a acompanhar o progresso, avaliar o desempenho e orientar a tomada de decisões. Os KPIs eficazes são específicos, mensuráveis, exequíveis, relevantes e limitados no tempo (SMART).

Aprendizagem automática

Um subconjunto da inteligência artificial que dá aos sistemas a capacidade de aprender e melhorar automaticamente com a experiência sem serem explicitamente programados. Na ciência dos dados, os algoritmos de aprendizagem automática criam modelos matemáticos com base em dados de amostra para fazer previsões ou tomar decisões sem intervenção humana.

Avaliação do modelo

O processo de avaliação do desempenho de um modelo utilizando várias métricas e técnicas. Para problemas de classificação, as métricas comuns incluem exatidão, precisão, recuperação, pontuação F1 e AUC-ROC. Para os problemas de regressão, as métricas incluem o erro quadrático médio, o erro absoluto médio e o R-quadrado. A validação cruzada é frequentemente utilizada para garantir uma avaliação robusta.

Análise preditiva

A utilização de dados históricos, algoritmos estatísticos e técnicas de aprendizagem automática para identificar a probabilidade de resultados futuros. Os modelos preditivos extraem padrões de dados históricos para determinar riscos e oportunidades. As aplicações incluem a pontuação de crédito, a previsão da rotatividade de clientes, a deteção de fraudes e a previsão da procura.

Análise prescritiva

A forma mais avançada de análise que recomenda acções a tomar para otimizar os resultados comerciais. Utiliza algoritmos de otimização, simulação e regras empresariais para sugerir opções de decisão com as respectivas implicações. A análise prescritiva responde à pergunta “O que devemos fazer?” e baseia-se frequentemente nas informações da análise preditiva.

Regressão

Um conjunto de métodos estatísticos utilizados para estimar relações entre variáveis, em particular a forma como uma variável dependente se altera quando as variáveis independentes variam. Os tipos incluem regressão linear, regressão polinomial, regressão logística (para resultados binários) e técnicas mais avançadas, como a regressão ridge e lasso, que incluem regularização.

SQL (Structured Query Language - Linguagem de Consulta Estruturada)

Uma linguagem específica de um domínio utilizada para gerir e manipular bases de dados relacionais. A SQL permite aos cientistas de dados recuperar, atualizar, inserir e eliminar dados, bem como criar e modificar estruturas de bases de dados. Apesar do aumento das bases de dados NoSQL, a SQL continua a ser essencial para a análise de dados e é frequentemente utilizada em conjunto com outras linguagens de programação, como Python e R.

Inferência estatística

O processo de tirar conclusões sobre populações ou verdades científicas a partir de dados. A inferência estatística inclui a estimativa (determinação dos valores dos parâmetros), o teste de hipóteses e a previsão. Quantifica a incerteza utilizando intervalos de confiança, valores p e métodos Bayesianos, permitindo aos cientistas de dados fazer generalizações fiáveis para além dos dados observados.

Análise de séries temporais

A análise de pontos de dados sequenciais recolhidos ao longo do tempo. A análise de séries temporais centra-se na identificação de tendências, sazonalidade, ciclicidade e componentes irregulares em dados temporais. As técnicas incluem modelos ARIMA, suavização exponencial e abordagens mais avançadas, como redes neurais LSTM, com aplicações em finanças, economia, previsão meteorológica e análise de IoT.

Mais

Precisa de ajuda para compreender os dados e a IA? Temos a experiência, as competências e a rede para o orientar. Contacte-nos para começar.