Installation und Import von Pandas
Um Pandas zu verwenden, musst Du es zunächst installieren. Öffne ein Terminal oder eine Eingabeaufforderung und gib den folgenden Befehl ein:
“`
pip install pandas
“`
Sobald Pandas installiert ist, kannst Du es in Deinem Python-Programm importieren:
import pandas as pd
DataFrame erstellen
Ein DataFrame ist eine der grundlegenden Datenstrukturen in Pandas. Es ähnelt einer Tabelle und besteht aus Zeilen und Spalten. Du kannst einen DataFrame aus verschiedenen Datenquellen erstellen, z. B. aus einer Liste, einem Dictionary oder einer CSV-Datei.
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['Berlin', 'Hamburg', 'Munich']}
df = pd.DataFrame(data)
print(df)
Daten laden und speichern
Pandas bietet Funktionen zum Laden und Speichern von Daten aus verschiedenen Quellen, wie z. B. CSV-, Excel- oder SQL-Dateien. Hier ist ein Beispiel, wie Du eine CSV-Datei laden und in einen DataFrame speichern kannst:
df = pd.read_csv('data.csv')
df.to_csv('new_data.csv', index=False)
4. Daten anzeigen und erkunden
Pandas bietet verschiedene Funktionen, um die Daten in einem DataFrame zu betrachten und zu erkunden. Hier sind einige Beispiele:
# Zeige die ersten 5 Zeilen
print(df.head())
# Zeige die letzten 5 Zeilen
print(df.tail())
# Zeige Informationen über den DataFrame
print(df.info())
# Zeige die Zusammenfassung von statistischen Daten
print(df.describe())
Daten auswählen und filtern
Mit Pandas kannst Du Daten auf verschiedene Weise auswählen und filtern:
# Wähle eine Spalte aus
ages = df['Age']
# Wähle mehrere Spalten aus
columns = ['Name', 'Age']
subset = df[columns]
# Filtere Zeilen nach einer Bedingung
older_than_30 = df[df['Age'] > 30]
Daten manipulieren
Pandas bietet viele Funktionen, um Daten in einem DataFrame zu manipulieren:
# Füge eine neue Spalte hinzu
df['Country'] = 'Germany'
# Ändere Werte in einer Spalte
df['Age'] = df['Age'] + 1
# Lösche eine Spalte
df.drop('Country', axis=1, inplace=True)
# Sortiere den DataFrame nach einer Spalte
sorted_df = df.sort_values('Age', ascending=False)
Aggregation und Gruppierung
Mit Pandas kannst Du auch Daten aggregieren und gruppieren:
# Berechne den Durchschnitt des Alters
average_age = df['Age'].mean()
# Gruppiere den DataFrame nach Stadt und berechne das Durchschnittsalter
grouped = df.groupby('City').mean()
Pandas ist ein leistungsfähiges Werkzeug für Data-Science-Projekte in Python. Diese Beispiele zeigen nur einen kleinen Teil der Möglichkeiten. Experimentiere mit den verschiedenen Funktionen und nutze Pandas, um Deine eigenen Projekte zu realisieren. Weitere Informationen findest Du in der offiziellen Dokumentation: https://pandas.pydata.org/pandas
Weiterführende Links, Ressourcen und Buchempfehlungen
In diesem Tutorial haben wir einen grundlegenden Überblick über die Verwendung von Pandas in Python gegeben. Die Möglichkeiten von Pandas sind jedoch weitreichend und zu komplex, um sie vollständig in einem kurzen Tutorial abzudecken. Um Dein Wissen über Pandas zu vertiefen, empfehle ich Dir, die folgenden Ressourcen zu nutzen:
Offizielle Pandas-Dokumentation:
– https://pandas.pydata.org/pandas-docs/stable/index.html
Online-Kurse und Tutorials:
– DataCamp: “Introduction to Data Science in Python” (https://www.datacamp.com/courses/introduction-to-data-science-in-python)
– Coursera: “Applied Data Science with Python Specialization” (https://www.coursera.org/specializations/data-science-python)
– Real Python: “Pandas DataFrame” (https://realpython.com/pandas-dataframe/)
Buchempfehlungen:
– “Python for Data Analysis” von Wes McKinney (https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662/)
– “Pandas Cookbook” von Theodore Petrou (https://www.amazon.com/Pandas-Cookbook-Theodore-Petrou/dp/1784393878/)
– “Data Wrangling with Pandas” von Kevin Markham (https://www.amazon.com/Data-Wrangling-Pandas-Kevin-Markham/dp/1119577636/)
Blogs und Websites:
– Practical Business Python: https://pbpython.com/
– Pandas Exercises: https://github.com/guipsamora/pandas_exercises
Diese Ressourcen sollten Dir dabei helfen, ein tieferes Verständnis von Pandas und der Anwendung von Data Science in Python zu entwickeln. Nutze sie, um Deine Fähigkeiten weiter auszubauen und erfolgreich eigene Projekte umzusetzen.