Daten und KI

Datenwissenschaftliches Glossar

KI-generierte Inhalte

A/B-Tests

Eine statistische Methode, mit der zwei Versionen (A und B) einer Variablen verglichen werden, um festzustellen, welche besser abschneidet. Dabei wird ein kontrolliertes Experiment durchgeführt, bei dem die Nutzer nach dem Zufallsprinzip verschiedenen Varianten eines Produktmerkmals, einer Webseite oder einer Marketingkampagne zugewiesen werden. Die Ergebnisse werden analysiert, um die statistische Signifikanz zu bestimmen und die Entscheidungsfindung zu unterstützen.

Erkennung von Anomalien

Die Identifizierung von seltenen Elementen, Ereignissen oder Beobachtungen, die erheblich von der Mehrheit der Daten abweichen und Verdacht erregen. Anomalien können auf kritische Vorfälle wie Bankbetrug, strukturelle Mängel, medizinische Probleme oder Fehler in Texten hinweisen. Zu den Techniken gehören statistische Methoden, Algorithmen für maschinelles Lernen und Deep-Learning-Ansätze.

Große Daten

Extrem große Datenmengen, die für herkömmliche Datenverarbeitungsanwendungen zu komplex sind. Big Data ist durch die “5 Vs” gekennzeichnet: Volumen (Größe), Geschwindigkeit (Generierungsgeschwindigkeit), Vielfalt (verschiedene Formen), Wahrhaftigkeit (Qualität und Genauigkeit) und Wert (Nützlichkeit). Für die Verarbeitung und Analyse von Big Data werden in der Regel spezialisierte Tools wie Hadoop, Spark und NoSQL-Datenbanken verwendet.

Verursachung

Eine Beziehung, bei der die Veränderung einer Variablen eine Veränderung einer anderen Variablen direkt beeinflusst oder bewirkt. Der Nachweis von Kausalität erfordert in der Regel kontrollierte Experimente oder fortgeschrittene statistische Techniken wie Kausalschlussverfahren. Das Verständnis kausaler Zusammenhänge ist entscheidend für zuverlässige Vorhersagen und wirksame Interventionen.

Klassifizierung

Eine überwachte Lerntechnik, bei der der Algorithmus aus markierten Trainingsdaten lernt und dieses Lernen nutzt, um neue, ungesehene Daten in vordefinierte Kategorien zu klassifizieren. Zu den gängigen Klassifizierungsalgorithmen gehören logistische Regression, Entscheidungsbäume, Random Forests, Support Vector Machines und neuronale Netze.

Clustering

Eine unüberwachte Lerntechnik, die ähnliche Datenpunkte auf der Grundlage ihrer intrinsischen Merkmale zusammenfasst. In der Datenwissenschaft hilft das Clustering bei der Identifizierung natürlicher Gruppierungen innerhalb von Daten ohne vordefinierte Kennzeichnungen. Beliebte Clustering-Algorithmen sind K-means, hierarchisches Clustering, DBSCAN und Gaußsche Mischmodelle.

Korrelation

Ein statistisches Maß, das das Ausmaß ausdrückt, in dem zwei Variablen linear miteinander verbunden sind. Die Korrelationskoeffizienten reichen von -1 bis +1, wobei Werte, die näher an +1 oder -1 liegen, stärkere positive bzw. negative Beziehungen anzeigen. Übliche Korrelationsmaße sind Pearson's r, Spearman's rank und Kendall's tau.

Kreuzvalidierung

Ein Verfahren zur Modellbewertung, mit dem beurteilt wird, wie gut ein Modell auf einen unabhängigen Datensatz verallgemeinert werden kann. Dabei werden die Daten in mehrere Teilmengen aufgeteilt, das Modell auf einigen Teilmengen (Trainingsmengen) trainiert und auf anderen (Validierungsmengen) validiert. Zu den gängigen Methoden gehören die k-fache Kreuzvalidierung, die Leave-One-Out-Kreuzvalidierung und die stratifizierte Kreuzvalidierung.

Datentechnik

Die Disziplin konzentrierte sich auf den Entwurf, den Aufbau und die Wartung der Infrastruktur und Architektur für die Datenerzeugung, -speicherung und -analyse. Data Engineers entwickeln Datenpipelines, erstellen Data Warehouses und gewährleisten die Verfügbarkeit, Konsistenz und Qualität der Daten für Data Scientists und Analysten.

Data Mining

Der Prozess der Entdeckung von Mustern, Korrelationen, Anomalien und nützlichen Informationen aus großen Datensätzen mithilfe von Methoden an der Schnittstelle von maschinellem Lernen, Statistik und Datenbanksystemen. Data Mining umfasst Aufgaben wie das Lernen von Assoziationsregeln, Clustering, Klassifizierung und Regression.

Daten-Pipeline

Eine Reihe von Prozessen, die Daten aus verschiedenen Quellen extrahieren, in ein nützliches Format umwandeln und zur Analyse oder Speicherung in ein System laden. Datenpipelines automatisieren den Datenfluss und sorgen für Konsistenz, Zuverlässigkeit und Effizienz bei der Datenverarbeitung. Moderne Datenpipelines umfassen häufig Echtzeitverarbeitungsfunktionen.

Vorverarbeitung von Daten

Die Umwandlung von Rohdaten in ein sauberes, strukturiertes Format, das für die Analyse geeignet ist. Dieser entscheidende Schritt umfasst die Behandlung fehlender Werte, das Entfernen von Duplikaten, die Normalisierung, die Standardisierung, die Kodierung kategorischer Variablen und die Merkmalsskalierung. Eine effektive Vorverarbeitung wirkt sich direkt auf die Qualität der aus den Daten gewonnenen Erkenntnisse aus.

Datenwissenschaft

Ein interdisziplinärer Bereich, der wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme einsetzt, um Wissen und Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen. Data Science kombiniert Fachwissen aus den Bereichen Statistik, Mathematik, Informatik, Fachwissen und Datenvisualisierung, um komplexe analytische Probleme zu lösen und datengestützte Entscheidungen zu treffen.

Datenvisualisierung

Die grafische Darstellung von Informationen und Daten mit Hilfe von visuellen Elementen wie Diagrammen, Schaubildern, Karten und Dashboards. Eine effektive Datenvisualisierung hilft dabei, komplexe Datenbeziehungen und -muster intuitiv zu kommunizieren und den Beteiligten Einblicke zu gewähren. Zu den gängigen Tools gehören Tableau, Power BI, matplotlib und D3.js.

Datenwrangling

Der Prozess der Umwandlung und des Mappings von Rohdaten in ein anderes Format, um sie für die Analyse besser geeignet zu machen. Dazu gehören Bereinigung, Strukturierung, Anreicherung, Validierung und Veröffentlichung von Daten. Das Data Wrangling nimmt in der Regel 60-80% der Zeit eines Datenwissenschaftlers in Anspruch, ist aber für die Gewährleistung zuverlässiger Analyseergebnisse unerlässlich.

Datenbank

Eine organisierte Sammlung von strukturierten Daten, die elektronisch gespeichert und abgerufen werden. Datenbanken sind darauf ausgelegt, Daten effizient zu speichern, abzurufen und entsprechend den Anforderungen von Benutzern und Anwendungen zu verwalten. Zu den Typen gehören relationale Datenbanken (MySQL, PostgreSQL), NoSQL-Datenbanken (MongoDB, Cassandra), Zeitseriendatenbanken und Graphdatenbanken.

Deskriptive Analytik

Die Untersuchung historischer Daten, um zu verstehen, was in der Vergangenheit geschehen ist. Diese Art der Analyse fasst Rohdaten zusammen und stellt Muster, Trends und Beziehungen durch Messungen der zentralen Tendenz, der Streuung und der Visualisierung dar. Die deskriptive Analyse beantwortet die Frage “Was ist passiert?” und bildet die Grundlage für weitergehende Analysen.

Dimensionalitätsreduktion

Techniken zur Verringerung der Anzahl von Merkmalen in einem Datensatz, wobei so viele Informationen wie möglich erhalten bleiben. Damit wird dem “Fluch der Dimensionalität” begegnet und die Leistung des Modells verbessert, indem redundante oder irrelevante Merkmale entfernt werden. Zu den gängigen Methoden gehören die Hauptkomponentenanalyse (PCA), t-SNE und Autoencoder.

ETL (Extrahieren, Transformieren, Laden)

Ein dreistufiger Prozess, der verwendet wird, um Daten aus verschiedenen Quellen zu sammeln, sie umzuwandeln, damit sie den betrieblichen Anforderungen entsprechen, und sie in eine Zieldatenbank oder ein Data Warehouse zu laden. ETL ist ein grundlegender Bestandteil von Datenintegrationsstrategien und gewährleistet die Datenkonsistenz zwischen verschiedenen Systemen und Anwendungen. Moderne Ansätze können ELT (Extract, Load, Transform) verwenden, wenn sie mit Data Lakes arbeiten.

Explorative Datenanalyse (EDA)

Ein kritischer Ansatz zur Analyse von Datensätzen, um deren Hauptmerkmale zusammenzufassen, wobei häufig visuelle Methoden zum Einsatz kommen. EDA hilft dabei, Muster zu erkennen, Anomalien zu entdecken, Hypothesen zu testen und Annahmen zu überprüfen, bevor anspruchsvollere Techniken angewendet werden. Sie umfasst in der Regel zusammenfassende Statistiken, Korrelationsanalysen und Visualisierungen wie Histogramme, Streudiagramme und Boxplots.

Technische Merkmale

Der Prozess der Auswahl, Änderung oder Erstellung von Merkmalen (Variablen) aus Rohdaten, um die Leistung von Modellen für maschinelles Lernen zu verbessern. Dies kann Techniken wie One-Hot-Codierung, Binning, Skalierung, polynomiale Merkmale oder die Erstellung domänenspezifischer Variablen umfassen. Effektives Feature-Engineering erfordert Fachwissen und kreative Problemlösungen.

Hypothesenprüfung

Eine statistische Methode, mit der auf der Grundlage von Stichprobendaten Rückschlüsse auf eine Grundgesamtheit gezogen werden können. Sie umfasst die Formulierung einer Nullhypothese und einer Alternativhypothese, die Erhebung von Daten, die Berechnung von Teststatistiken und die Entscheidung, ob die Nullhypothese auf der Grundlage eines vorgegebenen Signifikanzniveaus (in der Regel 0,05) verworfen werden soll.

KPI (Key Performance Indicator)

Quantifizierbare Messwerte, die zur Bewertung des Erfolgs einer Organisation, eines Projekts oder einer bestimmten Aktivität bei der Erreichung von Zielen verwendet werden. In der Datenwissenschaft helfen KPIs dabei, den Fortschritt zu verfolgen, die Leistung zu bewerten und Entscheidungen zu treffen. Wirksame KPIs sind spezifisch, messbar, erreichbar, relevant und zeitgebunden (SMART).

Maschinelles Lernen

Ein Teilbereich der künstlichen Intelligenz, der Systemen die Fähigkeit verleiht, automatisch zu lernen und sich aufgrund von Erfahrungen zu verbessern, ohne explizit programmiert zu werden. In der Datenwissenschaft erstellen maschinelle Lernalgorithmen mathematische Modelle auf der Grundlage von Beispieldaten, um Vorhersagen oder Entscheidungen ohne menschliches Eingreifen zu treffen.

Bewertung des Modells

Der Prozess der Bewertung der Leistung eines Modells anhand verschiedener Metriken und Techniken. Bei Klassifizierungsproblemen gehören zu den gängigen Metriken Genauigkeit, Präzision, Rückruf, F1-Score und AUC-ROC. Bei Regressionsproblemen gehören zu den Metriken der mittlere quadratische Fehler, der mittlere absolute Fehler und R-Quadrat. Die Kreuzvalidierung wird häufig verwendet, um eine zuverlässige Bewertung zu gewährleisten.

Prädiktive Analytik

Die Verwendung historischer Daten, statistischer Algorithmen und Techniken des maschinellen Lernens, um die Wahrscheinlichkeit künftiger Ergebnisse zu ermitteln. Prädiktive Modelle extrahieren Muster aus historischen Daten, um Risiken und Chancen zu ermitteln. Zu den Anwendungen gehören Kreditwürdigkeitsprüfung, Vorhersage der Kundenabwanderung, Betrugserkennung und Bedarfsprognosen.

Präskriptive Analytik

Die fortschrittlichste Form der Analyse, die Handlungsempfehlungen zur Optimierung von Geschäftsergebnissen gibt. Sie nutzt Optimierungsalgorithmen, Simulationen und Geschäftsregeln, um Entscheidungsoptionen und deren Auswirkungen vorzuschlagen. Die präskriptive Analytik beantwortet die Frage “Was sollen wir tun?” und baut oft auf den Erkenntnissen der prädiktiven Analytik auf.

Regression

Eine Reihe statistischer Methoden, die zur Schätzung der Beziehungen zwischen Variablen verwendet werden, insbesondere wie sich eine abhängige Variable verändert, wenn unabhängige Variablen variiert werden. Dazu gehören die lineare Regression, die polynomiale Regression, die logistische Regression (für binäre Ergebnisse) und fortgeschrittenere Techniken wie die Ridge- und Lassoregression, die eine Regularisierung beinhalten.

SQL (Strukturierte Abfragesprache)

Eine domänenspezifische Sprache, die zur Verwaltung und Bearbeitung von relationalen Datenbanken verwendet wird. SQL ermöglicht Datenwissenschaftlern das Abrufen, Aktualisieren, Einfügen und Löschen von Daten sowie das Erstellen und Ändern von Datenbankstrukturen. Trotz des Aufkommens von NoSQL-Datenbanken bleibt SQL für die Datenanalyse unverzichtbar und wird häufig in Verbindung mit anderen Programmiersprachen wie Python und R verwendet.

Statistische Inferenz

Der Prozess des Ziehens von Schlussfolgerungen über Populationen oder wissenschaftliche Wahrheiten aus Daten. Die statistische Inferenz umfasst Schätzung (Bestimmung von Parameterwerten), Hypothesentests und Vorhersage. Sie quantifiziert die Unsicherheit mithilfe von Konfidenzintervallen, p-Werten und Bayes'schen Methoden und ermöglicht es Datenwissenschaftlern, zuverlässige Verallgemeinerungen über die beobachteten Daten hinaus zu treffen.

Zeitreihenanalyse

Die Analyse von aufeinanderfolgenden Datenpunkten, die im Laufe der Zeit gesammelt wurden. Die Zeitreihenanalyse konzentriert sich auf die Erkennung von Trends, Saisonalität, Zyklizität und unregelmäßigen Komponenten in zeitlichen Daten. Zu den Techniken gehören ARIMA-Modelle, exponentielle Glättung und fortschrittlichere Ansätze wie neuronale Netze (LSTM) mit Anwendungen in den Bereichen Finanzen, Wirtschaft, Wettervorhersage und IoT-Analytik.

Mehr

Brauchen Sie Hilfe bei der Nutzung von Daten und KI? Wir haben das Fachwissen, die Fähigkeiten und das Netzwerk, um Sie zu unterstützen. Kontaktieren Sie uns, um loszulegen.