
Dados e IA
Glossário de IA e aprendizagem automática
Conteúdos gerados por IA
Algoritmo
Um conjunto de regras ou instruções passo a passo que um computador segue para resolver um problema ou efetuar uma tarefa. Os algoritmos em IA podem variar entre regras de decisão simples e procedimentos matemáticos complexos.
Inteligência Artificial (IA)
O domínio da ciência da computação centra-se na criação de sistemas capazes de realizar tarefas que normalmente requerem a inteligência humana. Isto inclui o raciocínio, a aprendizagem, o planeamento, a perceção, a compreensão da linguagem e a resolução de problemas.
Preconceito
Qualquer erro sistemático que leve um modelo a produzir consistentemente resultados enviesados numa direção. O enviesamento pode ter origem em dados de formação desequilibrados, pressupostos errados na conceção do modelo ou na forma como os dados foram recolhidos. A resolução dos enviesamentos é crucial para criar sistemas de IA justos e equitativos.
Agrupamento
Uma técnica de aprendizagem não supervisionada que agrupa pontos de dados semelhantes com base nas suas caraterísticas. Ao contrário da classificação, o agrupamento não utiliza etiquetas predefinidas. Os algoritmos de agrupamento comuns incluem K-means, DBSCAN e agrupamento hierárquico.
Visão computacional
Um domínio da IA que permite aos computadores interpretar e compreender a informação visual do mundo. Inclui o reconhecimento de imagens, a deteção de objectos, a reconstrução de cenas e a análise de vídeo. Os sistemas de visão computacional têm como objetivo reproduzir e exceder as capacidades visuais humanas.
Árvore de decisão
Um modelo preditivo que utiliza uma estrutura em forma de árvore de decisões e as suas possíveis consequências. Cada nó interno representa uma decisão baseada numa caraterística, cada ramo representa um resultado dessa decisão e cada nó folha representa uma etiqueta de classe ou previsão de valor.
Aprendizagem profunda
Um subconjunto especializado da aprendizagem automática que utiliza redes neuronais artificiais com várias camadas (daí o termo “profunda”) para extrair progressivamente caraterísticas de nível superior a partir de dados brutos. A aprendizagem profunda revolucionou domínios como o reconhecimento de imagens, o processamento de linguagem natural e os jogos.
Redução da dimensionalidade
Um conjunto de técnicas utilizadas para reduzir o número de caraterísticas num conjunto de dados, preservando o máximo de informação possível. Isto ajuda a combater a “maldição da dimensionalidade”, melhora a eficiência computacional e pode tornar os padrões mais evidentes. Os métodos comuns incluem PCA, t-SNE e autoencoders.
Métodos de conjunto
Técnicas que combinam vários modelos para melhorar o desempenho global. Ao tirar partido dos pontos fortes de diferentes modelos, os conjuntos atingem normalmente uma maior precisão e robustez do que os modelos individuais. As abordagens mais populares incluem bagging, boosting e stacking.
IA explicável (XAI)
Um domínio emergente centrado em tornar as decisões da IA transparentes e interpretáveis para os seres humanos. A XAI visa desenvolver métodos e ferramentas que ajudem os utilizadores a compreender por que razão um sistema de IA tomou uma determinada decisão, o que é crucial para criar confiança e garantir a responsabilização em aplicações de alto risco.
Caraterística
Uma propriedade mensurável ou caraterística do fenómeno que está a ser observado. As caraterísticas são os dados utilizados pelos modelos de aprendizagem automática para efetuar previsões. Uma boa seleção e engenharia de caraterísticas são frequentemente cruciais para o desempenho do modelo.
Redes Adversariais Generativas (GANs)
Uma estrutura em que duas redes neuronais - um gerador e um discriminador - competem entre si. O gerador cria amostras de dados sintéticos, enquanto o discriminador tenta distinguir entre amostras reais e falsas. Através deste processo contraditório, as GAN podem produzir conteúdos sintéticos extremamente realistas.
Descida de gradiente
Um algoritmo de otimização utilizado para minimizar uma função movendo-se iterativamente na direção da descida mais íngreme. Na aprendizagem automática, é utilizado para encontrar os pesos ideais para um modelo, minimizando a função de perda. As variantes incluem a descida de gradiente estocástica (SGD) e a descida de gradiente em mini-lote.
Hiperparâmetros
Definições de configuração especificadas antes do treino de um modelo que controlam o processo de aprendizagem. Ao contrário dos parâmetros do modelo (pesos e enviesamentos) que são aprendidos durante o treino, os hiperparâmetros têm de ser definidos manualmente ou ajustados utilizando técnicas como a pesquisa em grelha ou a otimização bayesiana.
Etiqueta
A variável-alvo ou resultado que um modelo de aprendizagem supervisionada pretende prever. As etiquetas são as “respostas” fornecidas nos dados de treino que o modelo aprende a associar a caraterísticas de entrada específicas.
Função de perda
Uma função matemática que mede a diferença entre as previsões de um modelo e os valores reais. O objetivo durante a formação é minimizar esta função. As funções de perda comuns incluem o erro quadrático médio para regressão e a entropia cruzada para classificação.
Aprendizagem automática (ML)
Um subconjunto da IA em que os sistemas aprendem padrões a partir de dados sem serem explicitamente programados com regras. Os algoritmos de aprendizagem automática melhoram o seu desempenho com a experiência, adaptando o seu comportamento com base na exposição a mais dados.
Modelo
Uma representação matemática ou computacional que capta padrões nos dados. Na aprendizagem automática, os modelos definem a relação entre as caraterísticas de entrada e as previsões de saída. Os modelos podem variar desde equações lineares simples até redes neurais complexas com milhões de parâmetros.
Processamento de linguagem natural (PNL)
O domínio da IA que se preocupa em permitir que os computadores compreendam, interpretem e gerem linguagem humana. A PNL engloba tarefas como a análise de sentimentos, a tradução automática, a resposta a perguntas e o resumo de textos.
Rede Neural
Um sistema de computação inspirado nas redes neuronais biológicas do cérebro humano. É constituído por nós interligados (neurónios) organizados em camadas que processam a informação ajustando a força das ligações. As redes neuronais constituem a base da aprendizagem profunda.
Sobreajuste
Um erro de modelação em que um modelo aprende os dados de treino de forma demasiado perfeita, incluindo o ruído e os valores atípicos. Um modelo sobreajustado tem um bom desempenho nos dados de treino, mas não consegue generalizar para dados novos e não vistos. Técnicas como a regularização e a validação cruzada ajudam a evitar o sobreajuste.
Floresta aleatória
Um método de aprendizagem em conjunto que combina várias árvores de decisão para melhorar a precisão e controlar o sobreajuste. Cada árvore da floresta é treinada num subconjunto aleatório de dados e caraterísticas, e a previsão final é normalmente a média (para regressão) ou o voto maioritário (para classificação) de todas as árvores.
Regularização
Um conjunto de técnicas utilizadas para evitar o sobreajuste, adicionando um termo de penalização à função de perda que desencoraja modelos complexos. Os métodos de regularização comuns incluem L1 (Lasso), L2 (Ridge), desistência e paragem antecipada.
Aprendizagem por reforço
Um tipo de aprendizagem automática em que um agente aprende a tomar decisões através de acções num ambiente para maximizar as recompensas cumulativas. O agente aprende por tentativa e erro, recebendo feedback sob a forma de recompensas ou penalizações. Esta abordagem tem sido bem sucedida em domínios como os jogos e a robótica.
Máquina de vetor de suporte (SVM)
Um algoritmo de aprendizagem supervisionada que encontra o hiperplano ótimo para separar diferentes classes no espaço de caraterísticas. Os SVMs têm como objetivo maximizar a margem entre classes e podem lidar com a classificação linear e não linear através da utilização de funções de kernel.
Aprendizagem supervisionada
Um paradigma de aprendizagem automática em que os algoritmos aprendem a partir de dados de treino rotulados. O modelo aprende a mapear as entradas para as saídas com base em exemplos de pares de entrada-saída, permitindo-lhe fazer previsões sobre dados novos e não vistos.
Dados de teste
Um subconjunto de dados utilizado para avaliar o desempenho de um modelo após a formação. Estes dados são mantidos separados do processo de formação para fornecer uma avaliação imparcial do grau de generalização do modelo a exemplos novos e não vistos.
Dados de treino
O conjunto de dados utilizado para ensinar um modelo de aprendizagem automática. Contém exemplos com caraterísticas e (na aprendizagem supervisionada) as etiquetas correspondentes. A qualidade, quantidade e diversidade dos dados de treino têm um impacto significativo no desempenho do modelo.
Aprendizagem por transferência
Uma técnica em que o conhecimento adquirido com o treino de um modelo numa tarefa é aplicado a uma tarefa diferente mas relacionada. Esta abordagem é particularmente útil quando os dados disponíveis para a tarefa-alvo são limitados, uma vez que aproveita os conhecimentos pré-existentes de um domínio de origem.
Subadaptação
Um erro de modelação em que um modelo é demasiado simples para captar os padrões subjacentes nos dados. Um modelo subajustado tem um desempenho fraco nos dados de treino e de teste. As soluções incluem a utilização de modelos mais complexos, a adição de caraterísticas ou a redução da regularização.
Aprendizagem não supervisionada
Uma abordagem de aprendizagem automática em que os algoritmos identificam padrões em dados não rotulados. Sem orientação explícita sobre o que prever, estes modelos descobrem estruturas, relações ou agrupamentos ocultos nos dados. As aplicações comuns incluem o agrupamento, a redução da dimensionalidade e a deteção de anomalias.
Desvio
Uma medida de quanto as previsões de um modelo mudariam se fossem treinadas em dados diferentes. Uma variância elevada indica que um modelo é demasiado sensível a flutuações nos dados de treino, levando frequentemente a um sobreajuste. O compromisso entre a polarização e a variância é um conceito fundamental na seleção de modelos de aprendizagem automática.
Mais
Precisa de ajuda para compreender os dados e a IA? Temos a experiência, as competências e a rede para o orientar. Contacte-nos para começar.
