Data-Science mit Pandas in Python

You are here:

Installation und Import von Pandas

Um Pandas zu verwenden, musst Du es zunächst installieren. Öffne ein Terminal oder eine Eingabeaufforderung und gib den folgenden Befehl ein:

“`

pip install pandas

“`

Sobald Pandas installiert ist, kannst Du es in Deinem Python-Programm importieren:

import pandas as pd

DataFrame erstellen

Ein DataFrame ist eine der grundlegenden Datenstrukturen in Pandas. Es ähnelt einer Tabelle und besteht aus Zeilen und Spalten. Du kannst einen DataFrame aus verschiedenen Datenquellen erstellen, z. B. aus einer Liste, einem Dictionary oder einer CSV-Datei.

data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['Berlin', 'Hamburg', 'Munich']}
df = pd.DataFrame(data)
print(df)

Daten laden und speichern

Pandas bietet Funktionen zum Laden und Speichern von Daten aus verschiedenen Quellen, wie z. B. CSV-, Excel- oder SQL-Dateien. Hier ist ein Beispiel, wie Du eine CSV-Datei laden und in einen DataFrame speichern kannst:

df = pd.read_csv('data.csv')

df.to_csv('new_data.csv', index=False)

4. Daten anzeigen und erkunden

Pandas bietet verschiedene Funktionen, um die Daten in einem DataFrame zu betrachten und zu erkunden. Hier sind einige Beispiele:

# Zeige die ersten 5 Zeilen

print(df.head())

# Zeige die letzten 5 Zeilen

print(df.tail())

# Zeige Informationen über den DataFrame

print(df.info())

# Zeige die Zusammenfassung von statistischen Daten

print(df.describe())

Daten auswählen und filtern

Mit Pandas kannst Du Daten auf verschiedene Weise auswählen und filtern:

# Wähle eine Spalte aus

ages = df['Age']

# Wähle mehrere Spalten aus

columns = ['Name', 'Age']

subset = df[columns]

# Filtere Zeilen nach einer Bedingung

older_than_30 = df[df['Age'] > 30]

Daten manipulieren

Pandas bietet viele Funktionen, um Daten in einem DataFrame zu manipulieren:

# Füge eine neue Spalte hinzu

df['Country'] = 'Germany'

# Ändere Werte in einer Spalte

df['Age'] = df['Age'] + 1

# Lösche eine Spalte

df.drop('Country', axis=1, inplace=True)

# Sortiere den DataFrame nach einer Spalte

sorted_df = df.sort_values('Age', ascending=False)

Aggregation und Gruppierung

Mit Pandas kannst Du auch Daten aggregieren und gruppieren:

# Berechne den Durchschnitt des Alters

average_age = df['Age'].mean()

# Gruppiere den DataFrame nach Stadt und berechne das Durchschnittsalter

grouped = df.groupby('City').mean()

Pandas ist ein leistungsfähiges Werkzeug für Data-Science-Projekte in Python. Diese Beispiele zeigen nur einen kleinen Teil der Möglichkeiten. Experimentiere mit den verschiedenen Funktionen und nutze Pandas, um Deine eigenen Projekte zu realisieren. Weitere Informationen findest Du in der offiziellen Dokumentation: https://pandas.pydata.org/pandas

Weiterführende Links, Ressourcen und Buchempfehlungen

In diesem Tutorial haben wir einen grundlegenden Überblick über die Verwendung von Pandas in Python gegeben. Die Möglichkeiten von Pandas sind jedoch weitreichend und zu komplex, um sie vollständig in einem kurzen Tutorial abzudecken. Um Dein Wissen über Pandas zu vertiefen, empfehle ich Dir, die folgenden Ressourcen zu nutzen:

Offizielle Pandas-Dokumentation:

– https://pandas.pydata.org/pandas-docs/stable/index.html

Online-Kurse und Tutorials:

– DataCamp: “Introduction to Data Science in Python” (https://www.datacamp.com/courses/introduction-to-data-science-in-python)

– Coursera: “Applied Data Science with Python Specialization” (https://www.coursera.org/specializations/data-science-python)

– Real Python: “Pandas DataFrame” (https://realpython.com/pandas-dataframe/)

Buchempfehlungen:

– “Python for Data Analysis” von Wes McKinney (https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662/)

– “Pandas Cookbook” von Theodore Petrou (https://www.amazon.com/Pandas-Cookbook-Theodore-Petrou/dp/1784393878/)

– “Data Wrangling with Pandas” von Kevin Markham (https://www.amazon.com/Data-Wrangling-Pandas-Kevin-Markham/dp/1119577636/)

Blogs und Websites:

– Practical Business Python: https://pbpython.com/

– Pandas Exercises: https://github.com/guipsamora/pandas_exercises

Diese Ressourcen sollten Dir dabei helfen, ein tieferes Verständnis von Pandas und der Anwendung von Data Science in Python zu entwickeln. Nutze sie, um Deine Fähigkeiten weiter auszubauen und erfolgreich eigene Projekte umzusetzen.