## 3. Pandas 快速上手：玩转表格数据

本章，你将学到：
- **核心数据结构**：理解 `Series` (一维序列) 和 `DataFrame` (二维数据框)。
- **数据导入与导出**: 轻松读写 `CSV` 和 `Excel` 文件。
- **数据筛选与查询**: 掌握 `loc`, `iloc` 和布尔索引，像 SQL 一样查询数据。
- **数据清洗**: 处理缺失值、重复值和转换数据类型。
- **分组与聚合**: 使用 `groupby` 进行数据分组并计算统计量。
- **数据合并与重塑**: 掌握 `merge`, `join`, `concat` 和 `pivot_table`。

---

### Pandas: Python 世界的 Excel

如果说 NumPy 是处理数值数组的专家，那么 Pandas 就是处理**表格数据（tabular data）**的王者。在商业分析和数据科学领域，我们遇到的大部分数据都是结构化的二维表格，就像 Excel 表格一样。Pandas 的设计初衷就是让 Python 拥有强大、灵活、易用的数据清洗和分析能力。

**为什么 Pandas 如此核心？**

1.  **直观的数据结构**: Pandas 的 `DataFrame` 对象与我们熟悉的电子表格或数据库表非常相似，易于理解和操作。
2.  **强大的 I/O 功能**: 只需一行代码，就能轻松读取 CSV、Excel、SQL 数据库等多种来源的数据。
3.  **丰富的数据操作**: 它提供了海量的方法，用于数据筛选、清洗、转换、合并、重塑等，几乎能满足所有数据预处理需求。
4.  **与生态无缝集成**: Pandas 与 NumPy、Matplotlib、Scikit-learn 等库紧密集成，是整个数据科学生态的“数据中枢”。

本章将带你掌握 Pandas 最常用、最重要的核心功能。

> **有用链接**:
> - [Pandas 官方网站](https://pandas.pydata.org/)
> - [Pandas 官方用户指南](https://pandas.pydata.org/docs/user_guide/index.html)

### 准备工作

在开始之前，我们需要导入 Pandas 库。业界惯例是将其重命名为 `pd`。同时，我们也会导入 NumPy，因为 Pandas 大量依赖于它。

In [2]:
import pandas as pd
import numpy as np

### 一、核心数据结构：`Series` 与 `DataFrame`

#### 1. `Series`: 带标签的一维数组
`Series` 是一个类似于一维数组的对象，但它有一个额外的**标签（Index）**，可以让我们用标签而不是数字位置来访问元素。你可以把它想象成一个只有一列的 Excel 表格，其中一列是数据，另一列是行索引。

> `pd.Series(data=None, index=None, dtype=None, name=None)`

| 参数 | 说明 |
| --- | --- |
| `data` | 输入的数据，可以是列表、字典、标量等。 |
| `index` | 自定义标签索引，长度需与数据匹配。 |
| `dtype` | 指定数据类型，默认会自动推断。 |
| `name` | 为 `Series` 命名，便于在结果中识别。 |

In [None]:
# 从列表创建一个 Series，Pandas 会自动创建从 0 开始的整数索引
s = pd.Series([10, 20, 30, 40, 50])
print("一个简单的 Series:")
print(s)

# 你也可以在创建时自定义索引、数据类型以及名称
s_custom_index = pd.Series([10, 20, 30], index=['a', 'b', 'c'], dtype='float64', name='scores')
print("\n带自定义索引的 Series (含 dtype 与 name):")
print(s_custom_index)

# 通过索引访问数据
val = s_custom_index['b']
print(f"\n获取索引为 'b' 的值: {val}")

一个简单的 Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

带自定义索引的 Series:
a    10
b    20
c    30
dtype: int64

获取索引为 'b' 的值: 20


#### 2. `DataFrame`: 带标签的二维表格
`DataFrame` 是 Pandas 的核心，它是一个二维的、大小可变的、异构的表格数据结构，拥有带标签的行（`index`）和列（`columns`）。你可以把它看作一个 Excel 工作表、一个 SQL 表，或者一个由多个 `Series` 共享相同索引组成的字典。

> `pd.DataFrame(data=None, index=None, columns=None, dtype=None)`

| 参数 | 说明 |
| --- | --- |
| `data` | 数据源（字典、二维数组、Series 字典等）。 |
| `index` | 行索引标签，长度需与行数一致。 |
| `columns` | 列索引标签，长度需与列数一致。 |
| `dtype` | 指定统一的数据类型。 |

In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df_people = pd.DataFrame(data, index=['R1', 'R2', 'R3', 'R4'])
print("一个简单的 DataFrame:")
print(df_people)

一个简单的 DataFrame:
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston


### 二、数据导入与导出：连接现实世界

数据分析的第一步通常是加载数据。Pandas 提供了强大而易用的函数来读取各种格式的文件。

#### 1. 读取 CSV 和 Excel 文件
- **`pd.read_csv()`**: 读取逗号分隔值（CSV）文件，这是最常用的数据格式。
- **`pd.read_excel()`**: 读取 Excel 文件 (`.xls` 或 `.xlsx`)。注意，使用此功能可能需要额外安装 `openpyxl` 库 (`pip install openpyxl`)。

> `pd.read_csv(filepath_or_buffer, sep=',', usecols=None, parse_dates=None, dtype=None, index_col=None)`

| 参数 | 说明 |
| --- | --- |
| `filepath_or_buffer` | 文件路径或类文件对象。 |
| `sep` | 分隔符，默认逗号，可改为制表符等。 |
| `usecols` | 只读取指定列，减少内存使用。 |
| `parse_dates` | 指定需要解析为日期的列。 |
| `dtype` | 指定列的数据类型，避免自动推断错误。 |
| `index_col` | 指定列作为行索引。 |

> `pd.read_excel(io, sheet_name=0, usecols=None, dtype=None, engine=None)`

| 参数 | 说明 |
| --- | --- |
| `io` | Excel 文件路径或缓冲区。 |
| `sheet_name` | 工作表名称或索引，默认第一个。 |
| `usecols` | 只读取指定列。 |
| `dtype` | 指定列数据类型。 |
| `engine` | 指定读写引擎，如 `openpyxl`。 |

In [None]:
# 假设我们有一个名为 'sales_data.csv' 的文件
# df_sales = pd.read_csv('sales_data.csv', usecols=['Date', 'Sales', 'Region'], parse_dates=['Date'], dtype={'Sales': 'float64'})

sales_data = {
    'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03'],
    'Category': ['Electronics', 'Books', 'Electronics', 'Books', 'Electronics'],
    'Product': ['Laptop', 'Novel', 'Mouse', 'Poetry', 'Keyboard'],
    'Sales': [1200, 30, 50, 25, 150],
    'Region': ['East', 'West', 'East', 'West', 'East']
}
df_sales = pd.DataFrame(sales_data)
print("模拟的销售数据 DataFrame:")
print(df_sales)

# 读取 Excel 示例
# df_excel = pd.read_excel('sales_data.xlsx', sheet_name='January', usecols='A:E')

模拟的销售数据 DataFrame:
         Date     Category   Product  Sales Region
0  2023-01-01  Electronics    Laptop   1200   East
1  2023-01-01        Books     Novel     30   West
2  2023-01-02  Electronics     Mouse     50   East
3  2023-01-02        Books    Poetry     25   West
4  2023-01-03  Electronics  Keyboard    150   East


#### 2. 快速检视数据
加载数据后，我们通常会做一些快速的探索性检查。

| 方法 | 常用参数 | 说明 |
| --- | --- | --- |
| `df.head(n=5)` | `n`: 返回的行数 | 查看前几行，快速了解数据结构。 |
| `df.tail(n=5)` | `n`: 返回的行数 | 查看末尾几行是否存在缺失或异常。 |
| `df.info(verbose=None, memory_usage=None)` | `memory_usage`: 统计内存占用；`verbose`: 控制输出细节 | 获取列类型、非空计数以及内存使用。 |
| `df.describe(percentiles=None, include=None, exclude=None)` | `include`: 指定包含的列类型；`percentiles`: 自定义百分位 | 生成描述性统计，支持数值和类别数据。 |

In [None]:
head_view = df_sales.head(n=3)
print("前 3 行数据:")
print(head_view)

tail_view = df_sales.tail(n=2)
print("\n最后 2 行数据:")
print(tail_view)

print("\n数据信息摘要:")
df_sales.info(memory_usage='deep')

desc_stats = df_sales.describe(include='all')
print("\n描述性统计:")
print(desc_stats)

前 3 行数据:
         Date     Category Product  Sales Region
0  2023-01-01  Electronics  Laptop   1200   East
1  2023-01-01        Books   Novel     30   West
2  2023-01-02  Electronics   Mouse     50   East

数据信息摘要:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Date      5 non-null      object
 1   Category  5 non-null      object
 2   Product   5 non-null      object
 3   Sales     5 non-null      int64 
 4   Region    5 non-null      object
dtypes: int64(1), object(4)
memory usage: 332.0+ bytes

描述性统计:
             Sales
count     5.000000
mean    291.000000
std     510.666232
min      25.000000
25%      30.000000
50%      50.000000
75%     150.000000
max    1200.000000


#### 3. 导出数据
分析完成后，你可能需要将处理好的数据保存到新文件中。

| 方法 | 常用参数 | 说明 |
| --- | --- | --- |
| `df.to_csv(path_or_buf, index=False, columns=None, encoding='utf-8', compression=None)` | `index`: 是否写入索引；`columns`: 选择导出的列；`encoding`: 指定编码；`compression`: 压缩格式 | 导出为 CSV 文件或缓冲区。 |
| `df.to_excel(excel_writer, sheet_name='Sheet1', index=False, columns=None, engine=None)` | `sheet_name`: 工作表名称；`engine`: 指定写入引擎（如 `openpyxl`）；`columns`: 选择导出的列 | 导出为 Excel 文件或缓冲区。 |

In [None]:
df_sales.to_csv('sales_export.csv', index=False, columns=['Date', 'Product', 'Sales'])
# df_sales.to_excel('sales_export.xlsx', index=False, sheet_name='Sales Summary', engine='openpyxl')

### 三、选择与过滤：像 SQL 一样查询

从庞大的数据集中精确地提取你需要的行和列，是数据分析的核心技能。

#### 1. 选择列
- 使用 `[]`：最简单的方式，类似于字典的 key 索引。
- 使用 `.`：如果列名是有效的 Python 标识符（没有空格、特殊字符），可以用点号访问。

| 语法 | 返回对象 | 说明 |
| --- | --- | --- |
| `df['col']` | `Series` | 根据列标签选择单列。 |
| `df[['col1', 'col2']]` | `DataFrame` | 使用列表选择多列。 |
| `df.col` | `Series` | 语法糖，仅当列名符合标识符规则时可用。 |

In [6]:
sales_column = df_sales['Sales']
print("选择 'Sales' 列 (Series):")
print(sales_column)

selected_cols = df_sales[['Date', 'Product', 'Sales']]
print("\n选择 'Date', 'Product', 'Sales' 三列 (DataFrame):")
print(selected_cols)

选择 'Sales' 列 (Series):
0    1200
1      30
2      50
3      25
4     150
Name: Sales, dtype: int64

选择 'Date', 'Product', 'Sales' 三列 (DataFrame):
         Date   Product  Sales
0  2023-01-01    Laptop   1200
1  2023-01-01     Novel     30
2  2023-01-02     Mouse     50
3  2023-01-02    Poetry     25
4  2023-01-03  Keyboard    150


#### 2. 使用 `loc` 和 `iloc` 进行选择
- **`df.loc[]`**：基于标签 (Label) 的选择。
- **`df.iloc[]`**：基于整数位置 (Integer location) 的选择。

> `df.loc[row_indexer, column_indexer]`

| 参数 | 说明 |
| --- | --- |
| `row_indexer` | 行标签、切片、布尔数组或索引器对象。 |
| `column_indexer` | 列标签或切片，可选，省略时返回所有列。 |

> `df.iloc[row_indexer, column_indexer]`

| 参数 | 说明 |
| --- | --- |
| `row_indexer` | 行的整数位置或切片。 |
| `column_indexer` | 列的整数位置或切片，可选。 |

In [7]:
row_1_loc = df_sales.loc[1]
print("使用 loc 选择第 2 行:")
print(row_1_loc)

subset_loc = df_sales.loc[1:3, ['Product', 'Sales']]
print("\n使用 loc 选择特定行和列:")
print(subset_loc)

row_1_iloc = df_sales.iloc[1]
print("\n使用 iloc 选择第 2 行:")
print(row_1_iloc)

subset_iloc = df_sales.iloc[1:3, 2:4]
print("\n使用 iloc 选择特定行和列:")
print(subset_iloc)

使用 loc 选择第 2 行:
Date        2023-01-01
Category         Books
Product          Novel
Sales               30
Region            West
Name: 1, dtype: object

使用 loc 选择特定行和列:
  Product  Sales
1   Novel     30
2   Mouse     50
3  Poetry     25

使用 iloc 选择第 2 行:
Date        2023-01-01
Category         Books
Product          Novel
Sales               30
Region            West
Name: 1, dtype: object

使用 iloc 选择特定行和列:
  Product  Sales
1   Novel     30
2   Mouse     50


#### 3. 布尔索引 (Conditional Filtering)
布尔索引允许你根据一个或多个条件来过滤行，是最常用的筛选方式之一。

| 方法 | 常用参数 | 说明 |
| --- | --- | --- |
| `Series > value` | 任意比较运算符 | 基于阈值的筛选。 |
| `(cond1) & (cond2)` | `&`, `|`, `~` | 组合多个布尔条件时需要括号。 |
| `Series.isin(values)` | `values`: 可迭代对象 | 判断元素是否属于给定集合。 |
| `Series.between(left, right, inclusive='both')` | `left`, `right`, `inclusive` | 按区间筛选数值范围。 |

In [None]:
high_sales_mask = df_sales['Sales'] > 100
high_sales_df = df_sales[high_sales_mask]
print("销售额大于 100 的记录:")
print(high_sales_df)

east_high_sales_mask = (df_sales['Region'] == 'East') & (df_sales['Sales'] > 100)
east_high_sales_df = df_sales[east_high_sales_mask]
print("\nEast 地区且销售额大于 100 的记录:")
print(east_high_sales_df)

books_or_clothing_mask = df_sales['Category'].isin(['Books', 'Clothing'])
books_or_clothing_df = df_sales[books_or_clothing_mask]
print("\n类别为 'Books' 或 'Clothing' 的记录:")
print(books_or_clothing_df)

mid_sales_mask = df_sales['Sales'].between(left=20, right=200, inclusive='both')
mid_sales_df = df_sales[mid_sales_mask]
print("\n销售额在 20 到 200 之间的记录:")
print(mid_sales_df)

销售额大于 100 的记录:
         Date     Category   Product  Sales Region
0  2023-01-01  Electronics    Laptop   1200   East
4  2023-01-03  Electronics  Keyboard    150   East

East 地区且销售额大于 100 的记录:
         Date     Category   Product  Sales Region
0  2023-01-01  Electronics    Laptop   1200   East
4  2023-01-03  Electronics  Keyboard    150   East

类别为 'Books' 或 'Clothing' 的记录:
         Date Category Product  Sales Region
1  2023-01-01    Books   Novel     30   West
3  2023-01-02    Books  Poetry     25   West


### 四、数据清洗：让数据变得可用

真实世界的数据很少是完美的，通常充满了缺失值、重复值或错误的数据类型。数据清洗是数据分析流程中至关重要的一步。

#### 1. 处理缺失值
首先，我们需要创建一个带缺失值（`np.nan`）的 DataFrame。

> `df.dropna(axis=0, how='any', subset=None, inplace=False)`

| 参数 | 说明 |
| --- | --- |
| `axis` | 沿哪个轴删除缺失值（0=行，1=列）。 |
| `how` | `'any'` 表示任一缺失即删除，`'all'` 表示整行/列全缺失才删除。 |
| `subset` | 只在指定列上检查缺失。 |
| `inplace` | 是否直接修改原对象。 |

> `df.fillna(value=None, method=None, axis=None, inplace=False, limit=None)`

| 参数 | 说明 |
| --- | --- |
| `value` | 用于填充的标量、字典或 Series。 |
| `method` | 使用 `'ffill'` 或 `'bfill'` 沿轴方向填充。 |
| `axis` | 指定沿行或列填充。 |
| `limit` | 限制连续填充的次数。 |

In [None]:
data_with_nan = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [10, 20, 30, 40]
}
df_nan = pd.DataFrame(data_with_nan)
print("带缺失值的 DataFrame:")
print(df_nan)

missing_counts = df_nan.isnull().sum()
print("\n每列的缺失值数量:")
print(missing_counts)

df_dropped = df_nan.dropna(axis=0, how='any')
print("\n删除所有含缺失值的行后:")
print(df_dropped)

df_filled_zero = df_nan.fillna(value=0)
print("\n用 0 填充所有缺失值后:")
print(df_filled_zero)

df_filled_mean = df_nan.fillna(value={
    'A': df_nan['A'].mean(),
    'B': df_nan['B'].mean()
})
print("\n用列均值填充缺失值后:")
print(df_filled_mean)

df_filled_ffill = df_nan.fillna(method='ffill', limit=1, axis=0)
print("\n前向填充（limit=1）后的结果:")
print(df_filled_ffill)

带缺失值的 DataFrame:
     A    B   C
0  1.0  5.0  10
1  2.0  NaN  20
2  NaN  NaN  30
3  4.0  8.0  40

每列的缺失值数量:
A    1
B    2
C    0
dtype: int64

删除所有含缺失值的行后:
     A    B   C
0  1.0  5.0  10
3  4.0  8.0  40

用 0 填充所有缺失值后:
     A    B   C
0  1.0  5.0  10
1  2.0  0.0  20
2  0.0  0.0  30
3  4.0  8.0  40

用列均值填充缺失值后:
          A    B   C
0  1.000000  5.0  10
1  2.000000  6.5  20
2  2.333333  6.5  30
3  4.000000  8.0  40


#### 2. 处理重复值

> `df.duplicated(subset=None, keep='first')`

| 参数 | 说明 |
| --- | --- |
| `subset` | 指定用于识别重复的列集合。 |
| `keep` | `'first'` 保留首次出现，`'last'` 保留最后一次，`False` 标记所有重复。 |

> `df.drop_duplicates(subset=None, keep='first', inplace=False)`

| 参数 | 说明 |
| --- | --- |
| `subset` | 与 `duplicated` 相同，控制比较的列。 |
| `keep` | 控制保留哪一个重复值。 |
| `inplace` | 是否就地修改。 |

In [None]:
data_with_dups = {
    'ID': [1, 2, 2, 3],
    'Name': ['A', 'B', 'B', 'C']
}
df_dups = pd.DataFrame(data_with_dups)
print("带重复值的 DataFrame:")
print(df_dups)

is_duplicate = df_dups.duplicated(subset=['ID', 'Name'], keep='first')
print("\n检查重复行:")
print(is_duplicate)

df_no_dups = df_dups.drop_duplicates(subset=['ID', 'Name'], keep='first')
print("\n删除重复行后:")
print(df_no_dups)

带重复值的 DataFrame:
   ID Name
0   1    A
1   2    B
2   2    B
3   3    C

检查重复行:
0    False
1    False
2     True
3    False
dtype: bool

删除重复行后:
   ID Name
0   1    A
1   2    B
3   3    C


#### 3. 数据类型转换
有时，数字被错误地存储为字符串，或者日期被存为普通文本。我们需要将它们转换为正确的类型才能进行计算或分析。

> `Series.astype(dtype, copy=True, errors='raise')`

| 参数 | 说明 |
| --- | --- |
| `dtype` | 目标数据类型（如 `float`, `int`, `str`）。 |
| `copy` | 是否返回数据的副本。 |
| `errors` | `'raise'` 遇到无效转换时报错，`'ignore'` 则保持原值。 |

> `pd.to_datetime(arg, format=None, errors='raise', infer_datetime_format=False)`

| 参数 | 说明 |
| --- | --- |
| `arg` | 需要转换的序列、列表或单个日期字符串。 |
| `format` | 指定日期格式，能显著提升解析速度。 |
| `errors` | `'raise'`、`'coerce'` 或 `'ignore'`，控制解析失败的处理方式。 |
| `infer_datetime_format` | 自动推断格式，提高性能。 |

In [None]:
df_wrong_type = df_sales.copy()
df_wrong_type['Sales'] = df_wrong_type['Sales'].astype(str)
print("'Sales' 列类型错误的信息:")
df_wrong_type.info()

df_corrected_type = df_wrong_type.copy()
df_corrected_type['Sales'] = df_corrected_type['Sales'].astype(dtype='float64', errors='raise')
print("\n'Sales' 列类型修正后的信息:")
df_corrected_type.info()

df_corrected_type['Date'] = pd.to_datetime(df_corrected_type['Date'], format='%Y-%m-%d', errors='raise')
print("\n'Date' 列类型修正后的信息:")
df_corrected_type.info()

'Sales' 列类型错误的信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Date      5 non-null      object
 1   Category  5 non-null      object
 2   Product   5 non-null      object
 3   Sales     5 non-null      object
 4   Region    5 non-null      object
dtypes: object(5)
memory usage: 332.0+ bytes

'Sales' 列类型修正后的信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Date      5 non-null      object 
 1   Category  5 non-null      object 
 2   Product   5 non-null      object 
 3   Sales     5 non-null      float64
 4   Region    5 non-null      object 
dtypes: float64(1), object(4)
memory usage: 332.0+ bytes

'Date' 列类型修正后的信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #

### 五、分组与聚合：从细节中看全局

`groupby` 操作遵循“拆分-应用-合并 (Split-Apply-Combine)”模式，是数据分析的基石。

> `df.groupby(by, axis=0, sort=True, as_index=True, dropna=True)`

| 参数 | 说明 |
| --- | --- |
| `by` | 用于分组的列标签、列表或字典。 |
| `axis` | 默认为行分组 (`axis=0`)，也可按列分组。 |
| `sort` | 是否对分组键排序。 |
| `as_index` | 为 `True` 时分组键成为结果的索引。 |
| `dropna` | 是否忽略分组键为 NA 的行。 |

> `GroupBy.agg(func=None, *args, **kwargs)`

| 参数 | 说明 |
| --- | --- |
| `func` | 可以是单个函数、函数列表或列-函数映射。 |
| `kwargs` | 向聚合函数传递的额外参数。 |
| `observed` | 针对分类分组键控制是否仅保留出现过的组合。 |

In [None]:
grouped_by_category = df_sales.groupby(by='Category', sort=True, dropna=False)
agg_results = grouped_by_category['Sales'].agg(['sum', 'mean', 'count'])
print("按类别分组聚合的结果:")
print(agg_results)

agg_results_chained = df_sales.groupby('Category')['Sales'].agg(['sum', 'mean']).reset_index()
print("\n链式调用并重置索引的结果:")
print(agg_results_chained)

agg_multi_group = df_sales.groupby(['Region', 'Category'])['Sales'].sum().reset_index()
print("\n按多个列分组聚合的结果:")
print(agg_multi_group)

agg_named = df_sales.groupby('Region').agg(
    total_sales=('Sales', 'sum'),
    average_sale=('Sales', 'mean'),
    orders=('Sales', 'count')
).reset_index()
print("\n命名聚合的结果:")
print(agg_named)

按类别分组聚合的结果:
              sum        mean  count
Category                            
Books          55   27.500000      2
Electronics  1400  466.666667      3

链式调用并重置索引的结果:
      Category   sum        mean
0        Books    55   27.500000
1  Electronics  1400  466.666667

按多个列分组聚合的结果:
  Region     Category  Sales
0   East  Electronics   1400
1   West        Books     55


### 六、合并与重塑：整合多个数据源

#### 1. `pd.concat`: 堆叠数据
`concat` 用于沿着一个轴将多个 DataFrame 对象堆叠在一起。

> `pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None)`

| 参数 | 说明 |
| --- | --- |
| `objs` | 要连接的对象列表或字典。 |
| `axis` | 0 表示纵向堆叠，1 表示横向拼接。 |
| `join` | `'outer'` 取并集，`'inner'` 取交集。 |
| `ignore_index` | 是否重新生成连续索引。 |
| `keys` | 为拼接结果添加分层索引。 |

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
vertical_concat = pd.concat([df1, df2], axis=0, ignore_index=True)
print("垂直拼接:")
print(vertical_concat)

horizontal_concat = pd.concat([df1, df2], axis=1, keys=['left', 'right'])
print("\n水平拼接:")
print(horizontal_concat)

垂直拼接:
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3

水平拼接:
    A   B   A   B
0  A0  B0  A2  B2
1  A1  B1  A3  B3


#### 2. `pd.merge`: SQL 式连接
`merge` 用于根据一个或多个共同的键（列）将不同的 DataFrame 连接起来，类似于 SQL 的 `JOIN`。

> `pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, suffixes=('_x', '_y'))

| 参数 | 说明 |
| --- | --- |
| `left`, `right` | 参与合并的 DataFrame。 |
| `how` | 连接方式：`'inner'`, `'left'`, `'right'`, `'outer'`, `'cross'`。 |
| `on` | 连接键列名（双方一致时）。 |
| `left_on`, `right_on` | 当连接列名不同时时分别指定。 |
| `suffixes` | 合并后重复列名的后缀。 |

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 'A': ['A0', 'A1', 'A2']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K3'], 'B': ['B0', 'B1', 'B3']})
inner_merge = pd.merge(left, right, on='key', how='inner', suffixes=('_left', '_right'), indicator=True)
print("内连接结果:")
print(inner_merge)

left_merge = pd.merge(left, right, on='key', how='left', validate='one_to_one')
print("\n左连接结果:")
print(left_merge)

内连接结果:
  key   A   B
0  K0  A0  B0
1  K1  A1  B1

左连接结果:
  key   A    B
0  K0  A0   B0
1  K1  A1   B1
2  K2  A2  NaN


#### 3. `pivot_table`: 数据透视表
数据透视表是一种强大的数据重塑和汇总工具，可以将长格式的数据转换为宽格式，非常适合制作交叉分析报告。

> `pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False)`

| 参数 | 说明 |
| --- | --- |
| `values` | 需要聚合的列。 |
| `index` | 结果表的行索引。 |
| `columns` | 结果表的列索引。 |
| `aggfunc` | 聚合函数，可为函数或列表。 |
| `fill_value` | 用于填充缺失值。 |
| `margins` | 是否添加合计行/列。 |

In [None]:
pivot = pd.pivot_table(
    df_sales,
    values='Sales',
    index='Region',
    columns='Category',
    aggfunc='sum',
    fill_value=0,
    margins=True,
    margins_name='Total'
 )
print("销售数据透视表:")
print(pivot)

销售数据透视表:
Category  Books  Electronics
Region                      
East          0         1400
West         55            0


---
**实践小结**: 你已经掌握了使用 Pandas 进行数据导入、检视、筛选、清洗、聚合和合并的核心技能。这些操作构成了绝大多数数据分析项目的骨架。请务必花时间练习 `loc`/`iloc` 的区别、布尔索引的逻辑以及 `groupby` 的思维模式。下一章，我们将学习如何将这些处理好的数据通过 **Matplotlib** 进行可视化呈现。