Dados e IA

Glossário da ciência dos dados

Conteúdos gerados por IA

Teste A/B

Um método estatístico utilizado para comparar duas versões (A e B) de uma variável para determinar qual delas tem melhor desempenho. Envolve a realização de uma experiência controlada em que os utilizadores são aleatoriamente atribuídos a diferentes variações de uma caraterística do produto, página Web ou campanha de marketing. Os resultados são analisados para determinar a significância estatística e informar a tomada de decisões.

Deteção de anomalias

A identificação de itens raros, eventos ou observações que se desviam significativamente da maioria dos dados e levantam suspeitas. As anomalias podem indicar incidentes críticos, como fraudes bancárias, defeitos estruturais, problemas médicos ou erros de texto. As técnicas incluem métodos estatísticos, algoritmos de aprendizagem automática e abordagens de aprendizagem profunda.

Grandes volumes de dados

Extremely large datasets that are too complex for traditional data processing applications. Big data is characterized by the “5 Vs”: Volume (size), Velocity (speed of generation), Variety (different forms), Veracity (quality and accuracy), and Value (usefulness). Specialized tools like Hadoop, Spark, and NoSQL databases are typically used to process and analyze big data.

Causalidade

Uma relação em que a alteração de uma variável influencia diretamente ou produz uma alteração noutra variável. O estabelecimento da causalidade exige normalmente experiências controladas ou técnicas estatísticas avançadas, como os métodos de inferência causal. A compreensão das relações causais é crucial para fazer previsões fiáveis e intervenções eficazes.

Classificação

Uma técnica de aprendizagem supervisionada em que o algoritmo aprende a partir de dados de treino marcados e utiliza esta aprendizagem para classificar dados novos e não vistos em categorias predefinidas. Os algoritmos de classificação mais comuns incluem a regressão logística, as árvores de decisão, as florestas aleatórias, as máquinas de vectores de suporte e as redes neuronais.

Agrupamento

Uma técnica de aprendizagem não supervisionada que agrupa pontos de dados semelhantes com base nas suas caraterísticas intrínsecas. Na ciência dos dados, o agrupamento ajuda a identificar agrupamentos naturais nos dados sem rótulos predefinidos. Os algoritmos de agrupamento mais populares incluem K-means, agrupamento hierárquico, DBSCAN e modelos de mistura gaussiana.

Correlação

A statistical measure that expresses the extent to which two variables are linearly related. Correlation coefficients range from -1 to +1, with values closer to +1 or -1 indicating stronger positive or negative relationships, respectively. Common correlation measures include Pearson’s r, Spearman’s rank, and Kendall’s tau.

Validação cruzada

Uma técnica de avaliação de modelos que avalia o grau de generalização de um modelo para um conjunto de dados independente. Envolve a partição dos dados em vários subconjuntos, o treino do modelo em alguns subconjuntos (conjuntos de treino) e a sua validação noutros (conjuntos de validação). Os métodos mais comuns incluem a validação cruzada k-fold, a validação cruzada leave-one-out e a validação cruzada estratificada.

Engenharia de dados

A disciplina centrava-se na conceção, construção e manutenção da infraestrutura e da arquitetura para a geração, armazenamento e análise de dados. Os engenheiros de dados desenvolvem pipelines de dados, criam armazéns de dados e asseguram a disponibilidade, consistência e qualidade dos dados para os cientistas e analistas de dados.

Extração de dados

O processo de descoberta de padrões, correlações, anomalias e informações úteis a partir de grandes conjuntos de dados, utilizando métodos na intersecção da aprendizagem automática, estatística e sistemas de bases de dados. A extração de dados engloba tarefas como a aprendizagem de regras de associação, o agrupamento, a classificação e a regressão.

Pipeline de dados

Uma série de processos que extraem dados de várias fontes, transformam-nos num formato útil e carregam-nos num sistema para análise ou armazenamento. Os pipelines de dados automatizam o fluxo de dados, garantindo consistência, fiabilidade e eficiência no processamento de dados. Os pipelines de dados modernos incluem frequentemente capacidades de processamento em tempo real.

Pré-processamento de dados

A transformação de dados em bruto num formato limpo e estruturado adequado para análise. Esta etapa crucial inclui o tratamento de valores em falta, a remoção de duplicados, a normalização, a padronização, a codificação de variáveis categóricas e o escalonamento de caraterísticas. Um pré-processamento eficaz tem um impacto direto na qualidade das informações obtidas a partir dos dados.

Ciência dos dados

Um domínio interdisciplinar que utiliza métodos, processos, algoritmos e sistemas científicos para extrair conhecimentos e ideias de dados estruturados e não estruturados. A ciência dos dados combina conhecimentos especializados em estatística, matemática, informática, conhecimento do domínio e visualização de dados para resolver problemas analíticos complexos e conduzir a tomada de decisões com base em dados.

Visualização de dados

A representação gráfica de informações e dados utilizando elementos visuais como quadros, gráficos, mapas e dashboards. Uma visualização de dados eficaz ajuda a comunicar relações e padrões de dados complexos de forma intuitiva, tornando as informações mais acessíveis às partes interessadas. As ferramentas comuns incluem Tableau, Power BI, matplotlib e D3.js.

Organização de dados

The process of transforming and mapping raw data into another format to make it more appropriate for analysis. This includes cleaning, structuring, enriching, validating, and publishing data. Data wrangling typically consumes 60-80% of a data scientist’s time but is essential for ensuring reliable analytical results.

Base de dados

Uma coleção organizada de dados estruturados armazenados e acedidos eletronicamente. As bases de dados são concebidas para armazenar, recuperar e gerir dados de forma eficiente, de acordo com as necessidades dos utilizadores e das aplicações. Os tipos incluem bases de dados relacionais (MySQL, PostgreSQL), bases de dados NoSQL (MongoDB, Cassandra), bases de dados de séries temporais e bases de dados de gráficos.

Análise descritiva

The examination of historical data to understand what has happened in the past. This type of analytics summarizes raw data and presents patterns, trends, and relationships through measures of central tendency, dispersion, and visualization. Descriptive analytics answers the question “What happened?” and forms the foundation for more advanced analytics.

Redução da dimensionalidade

Techniques used to reduce the number of features in a dataset while preserving as much information as possible. This addresses the “curse of dimensionality” and improves model performance by removing redundant or irrelevant features. Common methods include Principal Component Analysis (PCA), t-SNE, and autoencoders.

ETL (Extrair, Transformar, Carregar)

Um processo de três fases utilizado para recolher dados de várias fontes, transformá-los de modo a satisfazerem as necessidades operacionais e carregá-los numa base de dados de destino ou num armazém de dados. O ETL é fundamental para as estratégias de integração de dados e garante a consistência dos dados em diferentes sistemas e aplicações. As abordagens modernas podem utilizar ELT (Extract, Load, Transform) ao trabalhar com lagos de dados.

Análise Exploratória de Dados (AED)

Uma abordagem crítica à análise de conjuntos de dados para resumir as suas principais caraterísticas, utilizando frequentemente métodos visuais. A EDA ajuda a identificar padrões, detetar anomalias, testar hipóteses e verificar pressupostos antes de aplicar técnicas mais sofisticadas. Normalmente, envolve estatísticas resumidas, análise de correlação e visualizações como histogramas, gráficos de dispersão e gráficos de caixa.

Engenharia de recursos

O processo de seleção, modificação ou criação de caraterísticas (variáveis) a partir de dados brutos para melhorar o desempenho do modelo de aprendizagem automática. Este processo pode envolver técnicas como a codificação one-hot, binning, escalonamento, caraterísticas polinomiais ou a criação de variáveis específicas do domínio. Uma engenharia de caraterísticas eficaz requer conhecimento do domínio e resolução criativa de problemas.

Teste de hipóteses

Um método estatístico utilizado para fazer inferências sobre uma população com base em dados de amostra. Envolve a formulação de uma hipótese nula e de uma hipótese alternativa, a recolha de dados, o cálculo de estatísticas de teste e a determinação da rejeição da hipótese nula com base num nível de significância pré-determinado (normalmente 0,05).

KPI (Indicador-chave de desempenho)

Medidas quantificáveis utilizadas para avaliar o sucesso de uma organização, projeto ou atividade específica no cumprimento dos objectivos. Na ciência dos dados, os KPIs ajudam a acompanhar o progresso, avaliar o desempenho e orientar a tomada de decisões. Os KPIs eficazes são específicos, mensuráveis, exequíveis, relevantes e limitados no tempo (SMART).

Aprendizagem automática

Um subconjunto da inteligência artificial que dá aos sistemas a capacidade de aprender e melhorar automaticamente com a experiência sem serem explicitamente programados. Na ciência dos dados, os algoritmos de aprendizagem automática criam modelos matemáticos com base em dados de amostra para fazer previsões ou tomar decisões sem intervenção humana.

Avaliação do modelo

The process of assessing a model’s performance using various metrics and techniques. For classification problems, common metrics include accuracy, precision, recall, F1-score, and AUC-ROC. For regression problems, metrics include mean squared error, mean absolute error, and R-squared. Cross-validation is frequently used to ensure robust evaluation.

Análise preditiva

A utilização de dados históricos, algoritmos estatísticos e técnicas de aprendizagem automática para identificar a probabilidade de resultados futuros. Os modelos preditivos extraem padrões de dados históricos para determinar riscos e oportunidades. As aplicações incluem a pontuação de crédito, a previsão da rotatividade de clientes, a deteção de fraudes e a previsão da procura.

Análise prescritiva

The most advanced form of analytics that recommends actions to take to optimize business outcomes. It uses optimization algorithms, simulation, and business rules to suggest decision options with their implications. Prescriptive analytics answers the question “What should we do?” and often builds upon predictive analytics insights.

Regressão

Um conjunto de métodos estatísticos utilizados para estimar relações entre variáveis, em particular a forma como uma variável dependente se altera quando as variáveis independentes variam. Os tipos incluem regressão linear, regressão polinomial, regressão logística (para resultados binários) e técnicas mais avançadas, como a regressão ridge e lasso, que incluem regularização.

SQL (Structured Query Language - Linguagem de Consulta Estruturada)

Uma linguagem específica de um domínio utilizada para gerir e manipular bases de dados relacionais. A SQL permite aos cientistas de dados recuperar, atualizar, inserir e eliminar dados, bem como criar e modificar estruturas de bases de dados. Apesar do aumento das bases de dados NoSQL, a SQL continua a ser essencial para a análise de dados e é frequentemente utilizada em conjunto com outras linguagens de programação, como Python e R.

Inferência estatística

O processo de tirar conclusões sobre populações ou verdades científicas a partir de dados. A inferência estatística inclui a estimativa (determinação dos valores dos parâmetros), o teste de hipóteses e a previsão. Quantifica a incerteza utilizando intervalos de confiança, valores p e métodos Bayesianos, permitindo aos cientistas de dados fazer generalizações fiáveis para além dos dados observados.

Análise de séries temporais

A análise de pontos de dados sequenciais recolhidos ao longo do tempo. A análise de séries temporais centra-se na identificação de tendências, sazonalidade, ciclicidade e componentes irregulares em dados temporais. As técnicas incluem modelos ARIMA, suavização exponencial e abordagens mais avançadas, como redes neurais LSTM, com aplicações em finanças, economia, previsão meteorológica e análise de IoT.


Mais

Precisa de ajuda para compreender os dados e a IA? Temos a experiência, as competências e a rede para o orientar. Contacte-nos para começar.

pt_PTPT