Dados e IA

Glossário de IA e aprendizagem automática

Conteúdos gerados por IA

Algoritmo

Um conjunto de regras ou instruções passo a passo que um computador segue para resolver um problema ou efetuar uma tarefa. Os algoritmos em IA podem variar entre regras de decisão simples e procedimentos matemáticos complexos.

Inteligência Artificial (IA)

O domínio da ciência da computação centra-se na criação de sistemas capazes de realizar tarefas que normalmente requerem a inteligência humana. Isto inclui o raciocínio, a aprendizagem, o planeamento, a perceção, a compreensão da linguagem e a resolução de problemas.

Preconceito

Qualquer erro sistemático que leve um modelo a produzir consistentemente resultados enviesados numa direção. O enviesamento pode ter origem em dados de formação desequilibrados, pressupostos errados na conceção do modelo ou na forma como os dados foram recolhidos. A resolução dos enviesamentos é crucial para criar sistemas de IA justos e equitativos.

Agrupamento

An unsupervised learning technique that groups similar data points together based on their features or characteristics. Unlike classification, clustering doesn’t use predefined labels. Common clustering algorithms include K-means, DBSCAN, and hierarchical clustering.

Visão computacional

Um domínio da IA que permite aos computadores interpretar e compreender a informação visual do mundo. Inclui o reconhecimento de imagens, a deteção de objectos, a reconstrução de cenas e a análise de vídeo. Os sistemas de visão computacional têm como objetivo reproduzir e exceder as capacidades visuais humanas.

Árvore de decisão

Um modelo preditivo que utiliza uma estrutura em forma de árvore de decisões e as suas possíveis consequências. Cada nó interno representa uma decisão baseada numa caraterística, cada ramo representa um resultado dessa decisão e cada nó folha representa uma etiqueta de classe ou previsão de valor.

Aprendizagem profunda

A specialized subset of machine learning that uses artificial neural networks with multiple layers (hence “deep”) to progressively extract higher-level features from raw input. Deep learning has revolutionized fields like image recognition, natural language processing, and game playing.

Redução da dimensionalidade

A set of techniques used to reduce the number of features in a dataset while preserving as much information as possible. This helps combat the “curse of dimensionality,” improves computational efficiency, and can make patterns more apparent. Common methods include PCA, t-SNE, and autoencoders.

Métodos de conjunto

Técnicas que combinam vários modelos para melhorar o desempenho global. Ao tirar partido dos pontos fortes de diferentes modelos, os conjuntos atingem normalmente uma maior precisão e robustez do que os modelos individuais. As abordagens mais populares incluem bagging, boosting e stacking.

IA explicável (XAI)

Um domínio emergente centrado em tornar as decisões da IA transparentes e interpretáveis para os seres humanos. A XAI visa desenvolver métodos e ferramentas que ajudem os utilizadores a compreender por que razão um sistema de IA tomou uma determinada decisão, o que é crucial para criar confiança e garantir a responsabilização em aplicações de alto risco.

Caraterística

Uma propriedade mensurável ou caraterística do fenómeno que está a ser observado. As caraterísticas são os dados utilizados pelos modelos de aprendizagem automática para efetuar previsões. Uma boa seleção e engenharia de caraterísticas são frequentemente cruciais para o desempenho do modelo.

Redes Adversariais Generativas (GANs)

A framework where two neural networks—a generator and a discriminator—compete against each other. The generator creates synthetic data samples, while the discriminator tries to distinguish between real and fake samples. Through this adversarial process, GANs can produce remarkably realistic synthetic content.

Descida de gradiente

An optimization algorithm used to minimize a function by iteratively moving in the direction of steepest descent. In machine learning, it’s used to find the optimal weights for a model by minimizing the loss function. Variants include stochastic gradient descent (SGD) and mini-batch gradient descent.

Hiperparâmetros

Definições de configuração especificadas antes do treino de um modelo que controlam o processo de aprendizagem. Ao contrário dos parâmetros do modelo (pesos e enviesamentos) que são aprendidos durante o treino, os hiperparâmetros têm de ser definidos manualmente ou ajustados utilizando técnicas como a pesquisa em grelha ou a otimização bayesiana.

Etiqueta

The target variable or outcome that a supervised learning model aims to predict. Labels are the “answers” provided in training data that the model learns to associate with specific input features.

Função de perda

A mathematical function that measures the difference between a model’s predictions and the actual values. The goal during training is to minimize this function. Common loss functions include mean squared error for regression and cross-entropy for classification.

Aprendizagem automática (ML)

Um subconjunto da IA em que os sistemas aprendem padrões a partir de dados sem serem explicitamente programados com regras. Os algoritmos de aprendizagem automática melhoram o seu desempenho com a experiência, adaptando o seu comportamento com base na exposição a mais dados.

Modelo

Uma representação matemática ou computacional que capta padrões nos dados. Na aprendizagem automática, os modelos definem a relação entre as caraterísticas de entrada e as previsões de saída. Os modelos podem variar desde equações lineares simples até redes neurais complexas com milhões de parâmetros.

Processamento de linguagem natural (PNL)

O domínio da IA que se preocupa em permitir que os computadores compreendam, interpretem e gerem linguagem humana. A PNL engloba tarefas como a análise de sentimentos, a tradução automática, a resposta a perguntas e o resumo de textos.

Rede Neural

Um sistema de computação inspirado nas redes neuronais biológicas do cérebro humano. É constituído por nós interligados (neurónios) organizados em camadas que processam a informação ajustando a força das ligações. As redes neuronais constituem a base da aprendizagem profunda.

Sobreajuste

Um erro de modelação em que um modelo aprende os dados de treino de forma demasiado perfeita, incluindo o ruído e os valores atípicos. Um modelo sobreajustado tem um bom desempenho nos dados de treino, mas não consegue generalizar para dados novos e não vistos. Técnicas como a regularização e a validação cruzada ajudam a evitar o sobreajuste.

Floresta aleatória

Um método de aprendizagem em conjunto que combina várias árvores de decisão para melhorar a precisão e controlar o sobreajuste. Cada árvore da floresta é treinada num subconjunto aleatório de dados e caraterísticas, e a previsão final é normalmente a média (para regressão) ou o voto maioritário (para classificação) de todas as árvores.

Regularização

Um conjunto de técnicas utilizadas para evitar o sobreajuste, adicionando um termo de penalização à função de perda que desencoraja modelos complexos. Os métodos de regularização comuns incluem L1 (Lasso), L2 (Ridge), desistência e paragem antecipada.

Aprendizagem por reforço

Um tipo de aprendizagem automática em que um agente aprende a tomar decisões através de acções num ambiente para maximizar as recompensas cumulativas. O agente aprende por tentativa e erro, recebendo feedback sob a forma de recompensas ou penalizações. Esta abordagem tem sido bem sucedida em domínios como os jogos e a robótica.

Máquina de vetor de suporte (SVM)

Um algoritmo de aprendizagem supervisionada que encontra o hiperplano ótimo para separar diferentes classes no espaço de caraterísticas. Os SVMs têm como objetivo maximizar a margem entre classes e podem lidar com a classificação linear e não linear através da utilização de funções de kernel.

Aprendizagem supervisionada

Um paradigma de aprendizagem automática em que os algoritmos aprendem a partir de dados de treino rotulados. O modelo aprende a mapear as entradas para as saídas com base em exemplos de pares de entrada-saída, permitindo-lhe fazer previsões sobre dados novos e não vistos.

Dados de teste

A subset of data used to evaluate a model’s performance after training. This data is kept separate from the training process to provide an unbiased assessment of how well the model generalizes to new, unseen examples.

Dados de treino

O conjunto de dados utilizado para ensinar um modelo de aprendizagem automática. Contém exemplos com caraterísticas e (na aprendizagem supervisionada) as etiquetas correspondentes. A qualidade, quantidade e diversidade dos dados de treino têm um impacto significativo no desempenho do modelo.

Aprendizagem por transferência

Uma técnica em que o conhecimento adquirido com o treino de um modelo numa tarefa é aplicado a uma tarefa diferente mas relacionada. Esta abordagem é particularmente útil quando os dados disponíveis para a tarefa-alvo são limitados, uma vez que aproveita os conhecimentos pré-existentes de um domínio de origem.

Subadaptação

Um erro de modelação em que um modelo é demasiado simples para captar os padrões subjacentes nos dados. Um modelo subajustado tem um desempenho fraco nos dados de treino e de teste. As soluções incluem a utilização de modelos mais complexos, a adição de caraterísticas ou a redução da regularização.

Aprendizagem não supervisionada

Uma abordagem de aprendizagem automática em que os algoritmos identificam padrões em dados não rotulados. Sem orientação explícita sobre o que prever, estes modelos descobrem estruturas, relações ou agrupamentos ocultos nos dados. As aplicações comuns incluem o agrupamento, a redução da dimensionalidade e a deteção de anomalias.

Desvio

A measure of how much a model’s predictions would change if trained on different data. High variance indicates that a model is too sensitive to fluctuations in the training data, often leading to overfitting. The bias-variance tradeoff is a fundamental concept in machine learning model selection.


Mais

Precisa de ajuda para compreender os dados e a IA? Temos a experiência, as competências e a rede para o orientar. Contacte-nos para começar.

pt_PTPT