Scikit-Learn ist eine beliebte Open-Source-Bibliothek für maschinelles Lernen in Python. Sie bietet eine breite Palette von Algorithmen für Klassifikation, Regression, Clustering, Dimensionsreduktion und Modellauswahl.
Scikit-Learn-Grundlagen
Um Scikit-Learn zu verwenden, musst Du zunächst die benötigten Module importieren:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
Datenaufbereitung
Bevor Du ein Modell trainierst, musst Du die Daten aufbereiten, z. B. durch Normalisierung und Aufteilung in Trainings- und Testdaten.
# Iris-Datensatz laden
iris = datasets.load_iris()
X = iris.data
y = iris.target
# Aufteilung der Daten in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Normalisierung der Daten
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
Modellauswahl und Training
Scikit-Learn bietet eine Vielzahl von Algorithmen zur Auswahl. Hier ein Beispiel für die Verwendung von K-Nearest Neighbors (KNN) zur Klassifikation:
from sklearn.neighbors import KNeighborsClassifier
# KNN-Modell erstellen
knn = KNeighborsClassifier(n_neighbors=3)
# Modell trainieren
knn.fit(X_train, y_train)
Modellbewertung
Um die Leistung des Modells zu bewerten, kannst Du die Genauigkeit auf den Testdaten berechnen:
# Genauigkeit berechnen
accuracy = knn.score(X_test, y_test)
print("Accuracy:", accuracy)
Modellanwendung
Schließlich kannst Du das trainierte Modell verwenden, um Vorhersagen für neue Daten zu treffen:
# Neue Daten vorbereiten
new_data = np.array([[5.1, 3.5, 1.4, 0.2]])
# Daten normalisieren
new_data = scaler.transform(new_data)
# Vorhersage treffen
prediction = knn.predict(new_data)
print("Prediction:", iris.target_names[prediction])
Fazit
Scikit-Learn ist eine umfassende und einfach zu bedienende Bibliothek für maschinelles Lernen in Python. Mit einer Vielzahl von Algorithmen und Hilfsfunktionen zur Datenaufbereitung, Modellbewertung und Hyperparameteroptimierung bietet Scikit-Learn alles, was Du benötigst, um leistungsfähige Modelle für die Analyse und Vorhersage von Daten zu erstellen.