Вивчення бібліотеки Python Pandas для аналізу даних

Pandas — потужна бібліотека Python, яка використовується для обробки та аналізу даних. Він надає структури даних і функції, необхідні для безперебійної роботи зі структурованими даними. Завдяки своїм простим у використанні структурам даних Pandas особливо корисний для очищення, перетворення та аналізу даних. У цій статті розглядаються основні функції Pandas і те, як ви можете використовувати її для ефективної обробки даних.

Початок роботи з Pandas

Щоб почати використовувати Pandas, вам потрібно встановити його за допомогою pip. Ви можете зробити це, виконавши таку команду:

pip install pandas

Основні структури даних

Pandas надає дві основні структури даних: Series і DataFrame.

Серія

Серія — це одновимірний об’єкт, схожий на масив, який може містити різні типи даних, зокрема цілі числа, рядки та числа з плаваючою комою. Кожен елемент серії має відповідний індекс.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

DataFrame

DataFrame — це двовимірна неоднорідна таблична структура даних зі змінним розміром із позначеними осями (рядки та стовпці). По суті, це колекція серій.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Маніпулювання даними

Pandas пропонує широкий спектр функціональних можливостей для роботи з даними, включаючи індексування, нарізку та фільтрацію.

Індексування та нарізка

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

Фільтрування даних

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Очищення даних

Очищення даних — важливий етап аналізу даних. Pandas надає кілька методів обробки відсутніх даних, дублікатів записів і перетворення даних.

Обробка відсутніх даних

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

Видалення дублікатів

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

Висновок

Pandas є важливим інструментом для аналізу даних у Python. Його потужні структури даних і функції спрощують обробку, маніпулювання та аналіз даних. Опанувавши Pandas, ви можете значно розширити свої можливості аналізу даних і оптимізувати робочий процес.