
Daten und KI
Datenwissenschaftliches Glossar
KI-generierte Inhalte
A/B-Tests
Eine statistische Methode, mit der zwei Versionen (A und B) einer Variablen verglichen werden, um festzustellen, welche besser abschneidet. Dabei wird ein kontrolliertes Experiment durchgeführt, bei dem die Nutzer nach dem Zufallsprinzip verschiedenen Varianten eines Produktmerkmals, einer Webseite oder einer Marketingkampagne zugewiesen werden. Die Ergebnisse werden analysiert, um die statistische Signifikanz zu bestimmen und die Entscheidungsfindung zu unterstützen.
Erkennung von Anomalien
Die Identifizierung von seltenen Elementen, Ereignissen oder Beobachtungen, die erheblich von der Mehrheit der Daten abweichen und Verdacht erregen. Anomalien können auf kritische Vorfälle wie Bankbetrug, strukturelle Mängel, medizinische Probleme oder Fehler in Texten hinweisen. Zu den Techniken gehören statistische Methoden, Algorithmen für maschinelles Lernen und Deep-Learning-Ansätze.
Große Daten
Extremely large datasets that are too complex for traditional data processing applications. Big data is characterized by the “5 Vs”: Volume (size), Velocity (speed of generation), Variety (different forms), Veracity (quality and accuracy), and Value (usefulness). Specialized tools like Hadoop, Spark, and NoSQL databases are typically used to process and analyze big data.
Verursachung
Eine Beziehung, bei der die Veränderung einer Variablen eine Veränderung einer anderen Variablen direkt beeinflusst oder bewirkt. Der Nachweis von Kausalität erfordert in der Regel kontrollierte Experimente oder fortgeschrittene statistische Techniken wie Kausalschlussverfahren. Das Verständnis kausaler Zusammenhänge ist entscheidend für zuverlässige Vorhersagen und wirksame Interventionen.
Klassifizierung
Eine überwachte Lerntechnik, bei der der Algorithmus aus markierten Trainingsdaten lernt und dieses Lernen nutzt, um neue, ungesehene Daten in vordefinierte Kategorien zu klassifizieren. Zu den gängigen Klassifizierungsalgorithmen gehören logistische Regression, Entscheidungsbäume, Random Forests, Support Vector Machines und neuronale Netze.
Clustering
Eine unüberwachte Lerntechnik, die ähnliche Datenpunkte auf der Grundlage ihrer intrinsischen Merkmale zusammenfasst. In der Datenwissenschaft hilft das Clustering bei der Identifizierung natürlicher Gruppierungen innerhalb von Daten ohne vordefinierte Kennzeichnungen. Beliebte Clustering-Algorithmen sind K-means, hierarchisches Clustering, DBSCAN und Gaußsche Mischmodelle.
Korrelation
A statistical measure that expresses the extent to which two variables are linearly related. Correlation coefficients range from -1 to +1, with values closer to +1 or -1 indicating stronger positive or negative relationships, respectively. Common correlation measures include Pearson’s r, Spearman’s rank, and Kendall’s tau.
Kreuzvalidierung
Ein Verfahren zur Modellbewertung, mit dem beurteilt wird, wie gut ein Modell auf einen unabhängigen Datensatz verallgemeinert werden kann. Dabei werden die Daten in mehrere Teilmengen aufgeteilt, das Modell auf einigen Teilmengen (Trainingsmengen) trainiert und auf anderen (Validierungsmengen) validiert. Zu den gängigen Methoden gehören die k-fache Kreuzvalidierung, die Leave-One-Out-Kreuzvalidierung und die stratifizierte Kreuzvalidierung.
Datentechnik
Die Disziplin konzentrierte sich auf den Entwurf, den Aufbau und die Wartung der Infrastruktur und Architektur für die Datenerzeugung, -speicherung und -analyse. Data Engineers entwickeln Datenpipelines, erstellen Data Warehouses und gewährleisten die Verfügbarkeit, Konsistenz und Qualität der Daten für Data Scientists und Analysten.
Data Mining
Der Prozess der Entdeckung von Mustern, Korrelationen, Anomalien und nützlichen Informationen aus großen Datensätzen mithilfe von Methoden an der Schnittstelle von maschinellem Lernen, Statistik und Datenbanksystemen. Data Mining umfasst Aufgaben wie das Lernen von Assoziationsregeln, Clustering, Klassifizierung und Regression.
Daten-Pipeline
Eine Reihe von Prozessen, die Daten aus verschiedenen Quellen extrahieren, in ein nützliches Format umwandeln und zur Analyse oder Speicherung in ein System laden. Datenpipelines automatisieren den Datenfluss und sorgen für Konsistenz, Zuverlässigkeit und Effizienz bei der Datenverarbeitung. Moderne Datenpipelines umfassen häufig Echtzeitverarbeitungsfunktionen.
Vorverarbeitung von Daten
Die Umwandlung von Rohdaten in ein sauberes, strukturiertes Format, das für die Analyse geeignet ist. Dieser entscheidende Schritt umfasst die Behandlung fehlender Werte, das Entfernen von Duplikaten, die Normalisierung, die Standardisierung, die Kodierung kategorischer Variablen und die Merkmalsskalierung. Eine effektive Vorverarbeitung wirkt sich direkt auf die Qualität der aus den Daten gewonnenen Erkenntnisse aus.
Datenwissenschaft
Ein interdisziplinärer Bereich, der wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme einsetzt, um Wissen und Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen. Data Science kombiniert Fachwissen aus den Bereichen Statistik, Mathematik, Informatik, Fachwissen und Datenvisualisierung, um komplexe analytische Probleme zu lösen und datengestützte Entscheidungen zu treffen.
Datenvisualisierung
Die grafische Darstellung von Informationen und Daten mit Hilfe von visuellen Elementen wie Diagrammen, Schaubildern, Karten und Dashboards. Eine effektive Datenvisualisierung hilft dabei, komplexe Datenbeziehungen und -muster intuitiv zu kommunizieren und den Beteiligten Einblicke zu gewähren. Zu den gängigen Tools gehören Tableau, Power BI, matplotlib und D3.js.
Datenwrangling
The process of transforming and mapping raw data into another format to make it more appropriate for analysis. This includes cleaning, structuring, enriching, validating, and publishing data. Data wrangling typically consumes 60-80% of a data scientist’s time but is essential for ensuring reliable analytical results.
Datenbank
Eine organisierte Sammlung von strukturierten Daten, die elektronisch gespeichert und abgerufen werden. Datenbanken sind darauf ausgelegt, Daten effizient zu speichern, abzurufen und entsprechend den Anforderungen von Benutzern und Anwendungen zu verwalten. Zu den Typen gehören relationale Datenbanken (MySQL, PostgreSQL), NoSQL-Datenbanken (MongoDB, Cassandra), Zeitseriendatenbanken und Graphdatenbanken.
Deskriptive Analytik
The examination of historical data to understand what has happened in the past. This type of analytics summarizes raw data and presents patterns, trends, and relationships through measures of central tendency, dispersion, and visualization. Descriptive analytics answers the question “What happened?” and forms the foundation for more advanced analytics.
Dimensionalitätsreduktion
Techniques used to reduce the number of features in a dataset while preserving as much information as possible. This addresses the “curse of dimensionality” and improves model performance by removing redundant or irrelevant features. Common methods include Principal Component Analysis (PCA), t-SNE, and autoencoders.
ETL (Extrahieren, Transformieren, Laden)
Ein dreistufiger Prozess, der verwendet wird, um Daten aus verschiedenen Quellen zu sammeln, sie umzuwandeln, damit sie den betrieblichen Anforderungen entsprechen, und sie in eine Zieldatenbank oder ein Data Warehouse zu laden. ETL ist ein grundlegender Bestandteil von Datenintegrationsstrategien und gewährleistet die Datenkonsistenz zwischen verschiedenen Systemen und Anwendungen. Moderne Ansätze können ELT (Extract, Load, Transform) verwenden, wenn sie mit Data Lakes arbeiten.
Explorative Datenanalyse (EDA)
Ein kritischer Ansatz zur Analyse von Datensätzen, um deren Hauptmerkmale zusammenzufassen, wobei häufig visuelle Methoden zum Einsatz kommen. EDA hilft dabei, Muster zu erkennen, Anomalien zu entdecken, Hypothesen zu testen und Annahmen zu überprüfen, bevor anspruchsvollere Techniken angewendet werden. Sie umfasst in der Regel zusammenfassende Statistiken, Korrelationsanalysen und Visualisierungen wie Histogramme, Streudiagramme und Boxplots.
Technische Merkmale
Der Prozess der Auswahl, Änderung oder Erstellung von Merkmalen (Variablen) aus Rohdaten, um die Leistung von Modellen für maschinelles Lernen zu verbessern. Dies kann Techniken wie One-Hot-Codierung, Binning, Skalierung, polynomiale Merkmale oder die Erstellung domänenspezifischer Variablen umfassen. Effektives Feature-Engineering erfordert Fachwissen und kreative Problemlösungen.
Hypothesenprüfung
Eine statistische Methode, mit der auf der Grundlage von Stichprobendaten Rückschlüsse auf eine Grundgesamtheit gezogen werden können. Sie umfasst die Formulierung einer Nullhypothese und einer Alternativhypothese, die Erhebung von Daten, die Berechnung von Teststatistiken und die Entscheidung, ob die Nullhypothese auf der Grundlage eines vorgegebenen Signifikanzniveaus (in der Regel 0,05) verworfen werden soll.
KPI (Key Performance Indicator)
Quantifizierbare Messwerte, die zur Bewertung des Erfolgs einer Organisation, eines Projekts oder einer bestimmten Aktivität bei der Erreichung von Zielen verwendet werden. In der Datenwissenschaft helfen KPIs dabei, den Fortschritt zu verfolgen, die Leistung zu bewerten und Entscheidungen zu treffen. Wirksame KPIs sind spezifisch, messbar, erreichbar, relevant und zeitgebunden (SMART).
Maschinelles Lernen
Ein Teilbereich der künstlichen Intelligenz, der Systemen die Fähigkeit verleiht, automatisch zu lernen und sich aufgrund von Erfahrungen zu verbessern, ohne explizit programmiert zu werden. In der Datenwissenschaft erstellen maschinelle Lernalgorithmen mathematische Modelle auf der Grundlage von Beispieldaten, um Vorhersagen oder Entscheidungen ohne menschliches Eingreifen zu treffen.
Bewertung des Modells
The process of assessing a model’s performance using various metrics and techniques. For classification problems, common metrics include accuracy, precision, recall, F1-score, and AUC-ROC. For regression problems, metrics include mean squared error, mean absolute error, and R-squared. Cross-validation is frequently used to ensure robust evaluation.
Prädiktive Analytik
Die Verwendung historischer Daten, statistischer Algorithmen und Techniken des maschinellen Lernens, um die Wahrscheinlichkeit künftiger Ergebnisse zu ermitteln. Prädiktive Modelle extrahieren Muster aus historischen Daten, um Risiken und Chancen zu ermitteln. Zu den Anwendungen gehören Kreditwürdigkeitsprüfung, Vorhersage der Kundenabwanderung, Betrugserkennung und Bedarfsprognosen.
Präskriptive Analytik
The most advanced form of analytics that recommends actions to take to optimize business outcomes. It uses optimization algorithms, simulation, and business rules to suggest decision options with their implications. Prescriptive analytics answers the question “What should we do?” and often builds upon predictive analytics insights.
Regression
Eine Reihe statistischer Methoden, die zur Schätzung der Beziehungen zwischen Variablen verwendet werden, insbesondere wie sich eine abhängige Variable verändert, wenn unabhängige Variablen variiert werden. Dazu gehören die lineare Regression, die polynomiale Regression, die logistische Regression (für binäre Ergebnisse) und fortgeschrittenere Techniken wie die Ridge- und Lassoregression, die eine Regularisierung beinhalten.
SQL (Strukturierte Abfragesprache)
Eine domänenspezifische Sprache, die zur Verwaltung und Bearbeitung von relationalen Datenbanken verwendet wird. SQL ermöglicht Datenwissenschaftlern das Abrufen, Aktualisieren, Einfügen und Löschen von Daten sowie das Erstellen und Ändern von Datenbankstrukturen. Trotz des Aufkommens von NoSQL-Datenbanken bleibt SQL für die Datenanalyse unverzichtbar und wird häufig in Verbindung mit anderen Programmiersprachen wie Python und R verwendet.
Statistische Inferenz
Der Prozess des Ziehens von Schlussfolgerungen über Populationen oder wissenschaftliche Wahrheiten aus Daten. Die statistische Inferenz umfasst Schätzung (Bestimmung von Parameterwerten), Hypothesentests und Vorhersage. Sie quantifiziert die Unsicherheit mithilfe von Konfidenzintervallen, p-Werten und Bayes'schen Methoden und ermöglicht es Datenwissenschaftlern, zuverlässige Verallgemeinerungen über die beobachteten Daten hinaus zu treffen.
Zeitreihenanalyse
Die Analyse von aufeinanderfolgenden Datenpunkten, die im Laufe der Zeit gesammelt wurden. Die Zeitreihenanalyse konzentriert sich auf die Erkennung von Trends, Saisonalität, Zyklizität und unregelmäßigen Komponenten in zeitlichen Daten. Zu den Techniken gehören ARIMA-Modelle, exponentielle Glättung und fortschrittlichere Ansätze wie neuronale Netze (LSTM) mit Anwendungen in den Bereichen Finanzen, Wirtschaft, Wettervorhersage und IoT-Analytik.
Mehr
Brauchen Sie Hilfe bei der Nutzung von Daten und KI? Wir haben das Fachwissen, die Fähigkeiten und das Netzwerk, um Sie zu unterstützen. Kontaktieren Sie uns, um loszulegen.