Daten und KI

KI und maschinelles Lernen Glossar

KI-generierte Inhalte

Algorithmus

Eine Reihe von Regeln oder Anweisungen, die ein Computer schrittweise befolgt, um ein Problem zu lösen oder eine Aufgabe zu erfüllen. Algorithmen in der KI können von einfachen Entscheidungsregeln bis hin zu komplexen mathematischen Verfahren reichen.

Künstliche Intelligenz (KI)

Der Bereich der Informatik konzentriert sich auf die Entwicklung von Systemen, die Aufgaben erfüllen können, die normalerweise menschliche Intelligenz erfordern. Dazu gehören logisches Denken, Lernen, Planung, Wahrnehmung, Sprachverständnis und Problemlösung.

Vorurteil

Jeder systematische Fehler, der dazu führt, dass ein Modell durchweg in eine bestimmte Richtung verzerrte Ergebnisse liefert. Verzerrungen können durch unausgewogene Trainingsdaten, fehlerhafte Annahmen im Modelldesign oder die Art der Datenerfassung entstehen. Die Beseitigung von Verzerrungen ist entscheidend für die Schaffung fairer und gerechter KI-Systeme.

Clustering

Eine unüberwachte Lerntechnik, die ähnliche Datenpunkte auf der Grundlage ihrer Merkmale oder Eigenschaften zusammenfasst. Im Gegensatz zur Klassifizierung werden beim Clustering keine vordefinierten Bezeichnungen verwendet. Zu den gängigen Clustering-Algorithmen gehören K-Means, DBSCAN und hierarchisches Clustering.

Computer Vision

Ein Bereich der KI, der es Computern ermöglicht, visuelle Informationen aus der Welt zu interpretieren und zu verstehen. Dazu gehören Bilderkennung, Objekterkennung, Szenenrekonstruktion und Videoanalyse. Bildverarbeitungssysteme sollen die menschlichen visuellen Fähigkeiten nachahmen und übertreffen.

Entscheidungsbaum

Ein Vorhersagemodell, das eine baumartige Struktur von Entscheidungen und deren möglichen Folgen verwendet. Jeder interne Knoten steht für eine Entscheidung auf der Grundlage eines Merkmals, jeder Zweig für ein Ergebnis dieser Entscheidung und jeder Blattknoten für eine Klassenbezeichnung oder eine Wertvorhersage.

Tiefes Lernen

Ein spezieller Teilbereich des maschinellen Lernens, bei dem künstliche neuronale Netze mit mehreren Schichten (daher “tief”) verwendet werden, um schrittweise höherwertige Merkmale aus dem Rohdatenmaterial zu extrahieren. Deep Learning hat Bereiche wie Bilderkennung, natürliche Sprachverarbeitung und Spiele revolutioniert.

Dimensionalitätsreduktion

Eine Reihe von Techniken, die dazu dienen, die Anzahl der Merkmale in einem Datensatz zu reduzieren und dabei so viele Informationen wie möglich zu erhalten. Dies hilft, den “Fluch der Dimensionalität” zu bekämpfen, verbessert die Berechnungseffizienz und kann Muster besser erkennen lassen. Zu den gängigen Methoden gehören PCA, t-SNE und Autocodierer.

Ensemble-Methoden

Techniken, die mehrere Modelle kombinieren, um die Gesamtleistung zu verbessern. Durch die Nutzung der Stärken verschiedener Modelle erreichen Ensembles in der Regel eine höhere Genauigkeit und Robustheit als einzelne Modelle. Beliebte Ansätze sind Bagging, Boosting und Stacking.

Erklärbare KI (XAI)

Ein neuer Bereich, der sich darauf konzentriert, KI-Entscheidungen für den Menschen transparent und interpretierbar zu machen. XAI zielt darauf ab, Methoden und Werkzeuge zu entwickeln, die den Nutzern helfen zu verstehen, warum ein KI-System eine bestimmte Entscheidung getroffen hat, was für den Aufbau von Vertrauen und die Sicherstellung der Verantwortlichkeit bei Anwendungen, bei denen viel auf dem Spiel steht, entscheidend ist.

Merkmal

Eine messbare Eigenschaft oder ein Merkmal des zu beobachtenden Phänomens. Merkmale sind die Eingaben, die von Modellen für maschinelles Lernen verwendet werden, um Vorhersagen zu treffen. Eine gute Auswahl und Entwicklung von Merkmalen ist oft entscheidend für die Leistung des Modells.

Generative adversarische Netze (GANs)

Ein Rahmen, in dem zwei neuronale Netze - ein Generator und ein Diskriminator - gegeneinander antreten. Der Generator erstellt synthetische Datenproben, während der Diskriminator versucht, zwischen echten und gefälschten Proben zu unterscheiden. Durch diesen gegensätzlichen Prozess können GANs bemerkenswert realistische synthetische Inhalte erzeugen.

Gradienter Abstieg

Ein Optimierungsalgorithmus, der zur Minimierung einer Funktion verwendet wird, indem er sich iterativ in die Richtung des steilsten Abstiegs bewegt. Beim maschinellen Lernen wird er verwendet, um durch Minimierung der Verlustfunktion die optimalen Gewichte für ein Modell zu finden. Zu den Varianten gehören der stochastische Gradientenabstieg (SGD) und der Mini-Batch-Gradientenabstieg.

Hyperparameter

Vor dem Training eines Modells festgelegte Konfigurationseinstellungen, die den Lernprozess steuern. Im Gegensatz zu den Modellparametern (Gewichte und Verzerrungen), die während des Trainings erlernt werden, müssen die Hyperparameter manuell festgelegt oder mithilfe von Techniken wie der Gittersuche oder der Bayes'schen Optimierung abgestimmt werden.

Etikett

Die Zielvariable oder das Ergebnis, das ein überwachtes Lernmodell vorhersagen soll. Labels sind die “Antworten” in den Trainingsdaten, die das Modell lernt, mit bestimmten Eingangsmerkmalen zu verknüpfen.

Verlustfunktion

Eine mathematische Funktion, die die Differenz zwischen den Vorhersagen eines Modells und den tatsächlichen Werten misst. Das Ziel beim Training ist es, diese Funktion zu minimieren. Gängige Verlustfunktionen sind der mittlere quadratische Fehler für die Regression und die Kreuzentropie für die Klassifizierung.

Maschinelles Lernen (ML)

Ein Teilbereich der künstlichen Intelligenz, bei dem Systeme Muster aus Daten lernen, ohne ausdrücklich mit Regeln programmiert zu werden. ML-Algorithmen verbessern ihre Leistung mit zunehmender Erfahrung und passen ihr Verhalten an, wenn sie mehr Daten erhalten.

Modell

Eine mathematische oder rechnerische Darstellung, die Muster in Daten erfasst. Beim maschinellen Lernen definieren Modelle die Beziehung zwischen Eingabemerkmalen und Ausgabevorhersagen. Modelle können von einfachen linearen Gleichungen bis hin zu komplexen neuronalen Netzen mit Millionen von Parametern reichen.

Natürliche Sprachverarbeitung (NLP)

Der Bereich der künstlichen Intelligenz, der sich damit befasst, Computer in die Lage zu versetzen, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen. NLP umfasst Aufgaben wie Stimmungsanalyse, maschinelle Übersetzung, Fragenbeantwortung und Textzusammenfassung.

Neuronales Netz

Ein Computersystem, das von den biologischen neuronalen Netzen im menschlichen Gehirn inspiriert ist. Es besteht aus miteinander verbundenen Knoten (Neuronen), die in Schichten organisiert sind und Informationen verarbeiten, indem sie die Stärke der Verbindungen anpassen. Neuronale Netze bilden die Grundlage des Deep Learning.

Überanpassung

Ein Modellierungsfehler, bei dem ein Modell die Trainingsdaten zu perfekt lernt, einschließlich des Rauschens und der Ausreißer. Ein überangepasstes Modell erbringt gute Leistungen bei den Trainingsdaten, kann aber nicht auf neue, ungesehene Daten verallgemeinert werden. Techniken wie Regularisierung und Kreuzvalidierung helfen, Overfitting zu verhindern.

Zufälliger Wald

Ein Ensemble-Lernverfahren, bei dem mehrere Entscheidungsbäume kombiniert werden, um die Genauigkeit zu verbessern und die Überanpassung zu kontrollieren. Jeder Baum im Wald wird auf einer zufälligen Teilmenge der Daten und Merkmale trainiert, und die endgültige Vorhersage ist in der Regel der Durchschnitt (für Regression) oder die Mehrheitsentscheidung (für Klassifizierung) aller Bäume.

Regularisierung

Eine Reihe von Techniken, die dazu dienen, eine Überanpassung zu verhindern, indem der Verlustfunktion ein Strafterm hinzugefügt wird, der von komplexen Modellen abhält. Zu den gängigen Regularisierungsmethoden gehören L1 (Lasso), L2 (Ridge), Dropout und frühzeitiges Stoppen.

Reinforcement Learning

Eine Art des maschinellen Lernens, bei dem ein Agent lernt, Entscheidungen zu treffen, indem er in einer Umgebung Aktionen ausführt, um die kumulierten Belohnungen zu maximieren. Der Agent lernt durch Versuch und Irrtum und erhält Feedback in Form von Belohnungen oder Strafen. Dieser Ansatz hat sich in Bereichen wie Spiele und Robotik bewährt.

Support-Vektor-Maschine (SVM)

Ein überwachter Lernalgorithmus, der die optimale Hyperebene zur Trennung verschiedener Klassen im Merkmalsraum findet. SVMs zielen darauf ab, den Abstand zwischen den Klassen zu maximieren und können durch die Verwendung von Kernel-Funktionen sowohl lineare als auch nicht-lineare Klassifizierungen durchführen.

Überwachtes Lernen

Ein Paradigma des maschinellen Lernens, bei dem Algorithmen aus markierten Trainingsdaten lernen. Das Modell lernt, Eingaben auf der Grundlage von Beispiel-Eingabe-Ausgabe-Paaren auf Ausgaben abzubilden, so dass es Vorhersagen für neue, ungesehene Daten treffen kann.

Testdaten

Eine Teilmenge von Daten, die zur Bewertung der Leistung eines Modells nach dem Training verwendet wird. Diese Daten werden vom Trainingsprozess getrennt gehalten, um eine unvoreingenommene Bewertung der Generalisierung des Modells auf neue, ungesehene Beispiele zu ermöglichen.

Ausbildungsdaten

Der Datensatz, der zum Lernen eines maschinellen Lernmodells verwendet wird. Er enthält Beispiele mit Merkmalen und (beim überwachten Lernen) die entsprechenden Bezeichnungen. Die Qualität, Quantität und Vielfalt der Trainingsdaten hat einen erheblichen Einfluss auf die Leistung des Modells.

Lernen übertragen

Eine Technik, bei der das aus dem Training eines Modells für eine Aufgabe gewonnene Wissen auf eine andere, aber verwandte Aufgabe angewendet wird. Dieser Ansatz ist besonders nützlich, wenn für die Zielaufgabe nur begrenzte Daten zur Verfügung stehen, da er bereits vorhandenes Wissen aus einem Ausgangsbereich nutzt.

Underfitting

Ein Modellierungsfehler, bei dem ein Modell zu einfach ist, um die zugrunde liegenden Muster in den Daten zu erfassen. Ein unzureichend angepasstes Modell schneidet sowohl bei den Trainings- als auch bei den Testdaten schlecht ab. Zu den Lösungen gehören die Verwendung komplexerer Modelle, das Hinzufügen von Merkmalen oder die Verringerung der Regularisierung.

Unüberwachtes Lernen

Ein Ansatz des maschinellen Lernens, bei dem Algorithmen Muster in nicht beschrifteten Daten erkennen. Ohne explizite Vorgaben für die Vorhersage entdecken diese Modelle versteckte Strukturen, Beziehungen oder Gruppierungen in den Daten. Zu den üblichen Anwendungen gehören Clustering, Dimensionalitätsreduktion und Erkennung von Anomalien.

Abweichung

Ein Maß dafür, wie sehr sich die Vorhersagen eines Modells ändern würden, wenn es mit anderen Daten trainiert würde. Eine hohe Varianz zeigt an, dass ein Modell zu empfindlich auf Schwankungen in den Trainingsdaten reagiert, was häufig zu einer Überanpassung führt. Der Kompromiss zwischen Bias und Varianz ist ein grundlegendes Konzept bei der Auswahl von Modellen für maschinelles Lernen.

Mehr

Brauchen Sie Hilfe bei der Nutzung von Daten und KI? Wir haben das Fachwissen, die Fähigkeiten und das Netzwerk, um Sie zu unterstützen. Kontaktieren Sie uns, um loszulegen.