## 2. NumPy 快速上手：数组与向量化计算

本章，你将学到：
- **ndarray 核心概念**：理解 NumPy 数组的 `shape`, `dtype`, 和 `axis`。
- **数组的创建**: 掌握从列表、函数及特殊矩阵创建数组的方法。
- **索引与切片**: 从基础索引到高级的布尔索引和花式索引。
- **核心操作**: 学习广播、形状变换（`reshape`, `.T`, `newaxis`）、拼接、排序和矩阵乘法。
- **常用计算**: 掌握向量化运算（ufuncs）、描述性统计、条件化赋值 (`np.where`) 和集合操作。

---

### NumPy: Python 数据科学的基石

NumPy (Numerical Python) 是 Python 中用于科学计算的核心库。它不仅是 Pandas、Matplotlib、Scikit-learn 等几乎所有数据科学库的底层依赖，其本身也极为强大。

**为什么它如此重要？**

1.  **性能**: NumPy 的核心是 `ndarray` (N-dimensional array) 对象，它在底层使用 C 语言实现。向量化计算可以摆脱 Python 解释器的性能瓶颈，速度远超原生列表循环。
2.  **功能**: 它提供了大量用于数组操作的函数，涵盖了从线性代数到傅里叶变换再到复杂的随机数生成的各种功能。
3.  **简洁**: NumPy 允许你用非常少的代码来表达复杂的数据操作，让代码更易读、更易维护。

本章将带你掌握 NumPy 最常用、最重要的核心功能。强烈建议你边读边运行本 Notebook 中的代码。

> **有用链接**:
> - [NumPy 官方网站](https://numpy.org/)
> - [NumPy 官方入门教程](https://numpy.org/doc/stable/user/absolute_beginners.html)

### 准备工作

首先导入 NumPy，并创建一个现代的随机数生成器实例。我们还会为本章节创建一个文件与图片输出目录，方便后续保存示例结果。

In [1]:
import numpy as np
from pathlib import Path

rng = np.random.default_rng(seed=42)
ARTIFACT_DIR = Path("artifacts/numpy")
IMAGE_DIR = Path("images/numpy")
ARTIFACT_DIR.mkdir(parents=True, exist_ok=True)
IMAGE_DIR.mkdir(parents=True, exist_ok=True)

### 一、创建 `ndarray`：构建你的数据块

我们处理数据的第一步通常是创建 `ndarray`。你可以从已有数据结构构建数组，也可以生成有规律或随机的矩阵。

#### 1. 从 Python 列表创建

使用 `np.array()` 将列表（或嵌套列表）转换为数组，并指定 `dtype` 来控制数据类型。

In [2]:
list_data = [[1, 2, 3], [4, 5, 6]]
a = np.array(list_data, dtype=np.float64)

print("从列表创建的数组:")
print(a)

从列表创建的数组:
[[1. 2. 3.]
 [4. 5. 6.]]


#### 2. 使用内置函数创建占位符数组

`np.zeros`, `np.ones`, `np.full` 和 `np.eye` 能快速生成特定形状的占位数组。

In [4]:
zeros_arr = np.zeros((2, 3))
ones_arr = np.ones((2, 3))
full_arr = np.full((2, 3), 7)
eye_mat = np.eye(3)

print("\n全零数组:")
print(zeros_arr)

print("\n全一数组:")
print(ones_arr)

print("\n指定值数组:")
print(full_arr)

print("\n单位矩阵:")
print(eye_mat)


全零数组:
[[0. 0. 0.]
 [0. 0. 0.]]

全一数组:
[[1. 1. 1.]
 [1. 1. 1.]]

指定值数组:
[[7 7 7]
 [7 7 7]]

单位矩阵:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


#### 3. 创建序列数组

`np.arange` 与 `np.linspace` 分别用于按步长和按样本数生成序列。

In [5]:
arange_arr = np.arange(0, 10, 2)
linspace_arr = np.linspace(0, 1, 5)

print("使用 arange 创建的序列:")
print(arange_arr)

print("\n使用 linspace 创建的序列:")
print(linspace_arr)

使用 arange 创建的序列:
[0 2 4 6 8]

使用 linspace 创建的序列:
[0.   0.25 0.5  0.75 1.  ]


#### 4. 创建随机数组

利用现代随机数生成器 `rng` 获取不同分布的随机数据。

In [6]:
rand_arr = rng.random((2, 3))
randn_arr = rng.standard_normal((2, 3))
randint_arr = rng.integers(0, 10, size=(2, 3))

print("均匀分布随机数组:")
print(rand_arr)

print("\n标准正态分布随机数组:")
print(randn_arr)

print("\n随机整数数组:")
print(randint_arr)

均匀分布随机数组:
[[0.77395605 0.43887844 0.85859792]
 [0.69736803 0.09417735 0.97562235]]

标准正态分布随机数组:
[[ 0.1278404  -0.31624259 -0.01680116]
 [-0.85304393  0.87939797  0.77779194]]

随机整数数组:
[[7 6 4]
 [8 5 4]]


#### 5. 数组的基本属性

数组自带描述性属性，如 `shape`、`dtype`、`ndim` 和 `size`。

In [7]:
arr_shape = a.shape
arr_dtype = a.dtype
arr_ndim = a.ndim
arr_size = a.size

print("数组 a 的属性:")
print(f"Shape: {arr_shape}, DType: {arr_dtype}, NDim: {arr_ndim}, Size: {arr_size}")

数组 a 的属性:
Shape: (2, 3), DType: float64, NDim: 2, Size: 6


### 二、索引与切片：精准获取数据

索引让我们能够高效地选取数组的子集，包括基础索引、布尔索引与花式索引。

In [8]:
M = rng.integers(10, 100, size=(4, 5))
print(f"Original Matrix M:\n{M}")

Original Matrix M:
[[50 30 18 59 89]
 [15 87 84 34 66]
 [24 78 73 41 16]
 [97 50 90 71 80]]


#### 1. 基础索引与切片

使用 `[row, col]` 访问单个元素，使用切片语法获取子数组。基础切片返回视图，修改视图会影响原数组。

In [9]:
element = M[0, 1]
print(f"Element at (0, 1): {element}")

sub_array = M[1:3, 2:4]
print(f"\nSub-array (a view):\n{sub_array}")

sub_array[0, 0] = 999
print(f"\nOriginal M after modifying view:\n{M}")

sub_copy = M[1:3, 2:4].copy()
sub_copy[0, 0] = 111
print(f"\nOriginal M after modifying copy:\n{M}")

Element at (0, 1): 30

Sub-array (a view):
[[84 34]
 [73 41]]

Original M after modifying view:
[[ 50  30  18  59  89]
 [ 15  87 999  34  66]
 [ 24  78  73  41  16]
 [ 97  50  90  71  80]]

Original M after modifying copy:
[[ 50  30  18  59  89]
 [ 15  87 999  34  66]
 [ 24  78  73  41  16]
 [ 97  50  90  71  80]]


#### 2. 布尔索引

使用布尔条件筛选满足要求的元素，可以组合多个条件形成复合筛选。

In [10]:
bool_mask = M > 50
print(f"Boolean Mask (M > 50):\n{bool_mask}")

elements_gt_50 = M[bool_mask]
print(f"\nElements > 50: {elements_gt_50}")

combined_mask = (M > 30) & (M < 70)
elements_between_30_and_70 = M[combined_mask]
print(f"\nElements between 30 and 70: {elements_between_30_and_70}")

Boolean Mask (M > 50):
[[False False False  True  True]
 [False  True  True False  True]
 [False  True  True False False]
 [ True False  True  True  True]]

Elements > 50: [ 59  89  87 999  66  78  73  97  90  71  80]

Elements between 30 and 70: [50 59 34 66 41 50]


#### 3. 花式索引 (Fancy Indexing)

通过整数数组或列表指定复杂的行列组合。

In [11]:
fancy_rows = M[[0, 3, 1]]
print(f"Rows 0, 3, 1 in that order:\n{fancy_rows}")

specific_elements = M[[0, 1, 2], [1, 3, 0]]
print(f"\nSpecific elements at (0,1), (1,3), (2,0): {specific_elements}")

Rows 0, 3, 1 in that order:
[[ 50  30  18  59  89]
 [ 97  50  90  71  80]
 [ 15  87 999  34  66]]

Specific elements at (0,1), (1,3), (2,0): [30 34 24]


### 三、核心数组操作

掌握形状变换、拼接、排序、广播和矩阵乘法，为后续的线性代数与数据处理做好准备。

#### 1. 形状变换

`reshape`, `ravel`, `flatten`, `.T` 与 `np.newaxis` 可以重新组织数组结构。

In [12]:
data = np.arange(12)
print(f"Original 1D data: {data}")

reshaped = data.reshape(3, 4)
print(f"\nReshaped to 3x4:\n{reshaped}")

raveled_view = reshaped.ravel()
raveled_view[0] = 100
print(f"\nRaveled (view): {raveled_view}")
print(f"Original reshaped array was changed: \n{reshaped}")

flattened_copy = reshaped.flatten()
flattened_copy[1] = 200
print(f"\nFlattened (copy): {flattened_copy}")
print(f"Original reshaped array was NOT changed: \n{reshaped}")

transposed = reshaped.T
print(f"\nTransposed array (4x3):\n{transposed}")

vec = np.arange(4)
col_vec = vec[:, np.newaxis]
row_vec = vec[np.newaxis, :]
print(f"\nOriginal vector (shape {vec.shape}): {vec}")
print(f"Column vector (shape {col_vec.shape}):\n{col_vec}")
print(f"Row vector (shape {row_vec.shape}):\n{row_vec}")

Original 1D data: [ 0  1  2  3  4  5  6  7  8  9 10 11]

Reshaped to 3x4:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

Raveled (view): [100   1   2   3   4   5   6   7   8   9  10  11]
Original reshaped array was changed: 
[[100   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]

Flattened (copy): [100 200   2   3   4   5   6   7   8   9  10  11]
Original reshaped array was NOT changed: 
[[100   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]

Transposed array (4x3):
[[100   4   8]
 [  1   5   9]
 [  2   6  10]
 [  3   7  11]]

Original vector (shape (4,)): [0 1 2 3]
Column vector (shape (4, 1)):
[[0]
 [1]
 [2]
 [3]]
Row vector (shape (1, 4)):
[[0 1 2 3]]


#### 2. 数组拼接

`np.vstack` 与 `np.hstack` 帮助我们在行或列方向拼接数组。

In [13]:
A = np.ones((2, 3))
B = np.zeros((2, 3))

v_stack = np.vstack((A, B))
h_stack = np.hstack((A, B))

print(f"Vertical Stack:\n{v_stack}")
print(f"\nHorizontal Stack:\n{h_stack}")

Vertical Stack:
[[1. 1. 1.]
 [1. 1. 1.]
 [0. 0. 0.]
 [0. 0. 0.]]

Horizontal Stack:
[[1. 1. 1. 0. 0. 0.]
 [1. 1. 1. 0. 0. 0.]]


#### 3. 数组排序

- `np.sort(a, axis=-1)`: 返回排序后的拷贝，`axis` 控制沿哪个轴排序（设为 `None` 时会展平成一维）。

- `ndarray.sort(axis=-1)`: 原地排序方法，直接修改数组本身，`axis` 的含义与 `np.sort` 相同。

In [None]:
data = rng.integers(0, 100, size=10)
print(f"Unsorted data: {data}")

sorted_copy = np.sort(data)
print(f"Sorted copy:   {sorted_copy}")
print(f"Original data is unchanged: {data}")

data.sort()
print(f"Data sorted in-place: {data}")

matrix = rng.integers(0, 50, size=(2, 4))
print(f"\nOriginal matrix:\n{matrix}")

sorted_rows = np.sort(matrix, axis=1)
print(f"Sorted along rows (axis=1):\n{sorted_rows}")

matrix_column_sort = matrix.copy()
matrix_column_sort.sort(axis=0)
print(f"Sorted in-place along columns (axis=0):\n{matrix_column_sort}")

Unsorted data: [75 19 36 46 49  4 54 15 74 68]
Sorted copy:   [ 4 15 19 36 46 49 54 68 74 75]
Original data is unchanged: [75 19 36 46 49  4 54 15 74 68]
Data sorted in-place: [ 4 15 19 36 46 49 54 68 74 75]


#### 4. 广播 (Broadcasting)

利用 `np.broadcast_to` 将较小数组显式扩展到目标形状，便于与大数组进行逐元素运算。

In [None]:
X = np.ones((3, 3))
v = np.array([10, 20, 30])

v_broadcasted = np.broadcast_to(v, X.shape)

print(f"Matrix X:\n{X}\n")
print(f"Vector v (1D): {v}")
print(f"Broadcasted view:\n{v_broadcasted}\n")

Y = X + v_broadcasted
print("Broadcasting example: X + broadcasted v\n")
print(f"Broadcasting a vector to each row:\n{Y}")

Matrix X:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]] 

Vector v (1D): [10 20 30]

 Broadcasting example: X + v 

Broadcasting a vector to each row:
[[11. 21. 31.]
 [11. 21. 31.]
 [11. 21. 31.]]


#### 5. 矩阵乘法

使用 `np.matmul`（或 `@` 运算符）执行标准矩阵乘法。

In [None]:
mat_A = np.arange(6).reshape(2, 3)
mat_B = np.arange(6).reshape(3, 2)
print(f"Matrix A (2x3):\n{mat_A}")
print(f"\nMatrix B (3x2):\n{mat_B}")

mat_product = np.matmul(mat_A, mat_B)
print(f"\nMatrix Product A @ B (2x2):\n{mat_product}")

Matrix A (2x3):
[[0 1 2]
 [3 4 5]]

Matrix B (3x2):
[[0 1]
 [2 3]
 [4 5]]

Matrix Product A @ B (2x2):
[[10 13]
 [28 40]]


### 四、通用函数 (ufunc) 与统计

充分利用向量化运算、描述性统计和条件化赋值，加速数据处理流程。

#### 1. 向量化运算 (ufuncs)

在整个数组上调用 ufunc，比手写循环更高效。

In [None]:
data = np.arange(1, 6)
print(f"Original data: {data}")

data_plus_10 = np.add(data, 10)
print(f"Add 10: {data_plus_10}")

sqrt_data = np.sqrt(data)
print(f"Square root: {sqrt_data}")

sin_data = np.sin(data)
print(f"Sine: {sin_data}")

Original data: [1 2 3 4 5]
Add 10: [11 12 13 14 15]
Square root: [1.         1.41421356 1.73205081 2.         2.23606798]
Sine: [ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427]


#### 2. 描述性统计与 `axis` 参数

`axis` 指定沿哪个维度聚合，常用于按行或按列计算统计量。

In [None]:
data = rng.integers(0, 10, size=(3, 5))
print(f"Data:\n{data}")

total_sum = np.sum(data)
print(f"Overall sum (axis=None): {total_sum}")

col_sums = np.sum(data, axis=0)
print(f"Sum of each column (axis=0): {col_sums}")

row_means = np.mean(data, axis=1)
print(f"Mean of each row (axis=1): {row_means}")

Data:
[[9 7 3 9 4]
 [3 9 3 0 4]
 [7 1 4 1 6]]
Overall sum (axis=None): 70
Sum of each column (axis=0): [19 17 10 10 14]
Mean of each row (axis=1): [6.4 3.8 3.8]


#### 3. 条件化操作 `np.where()`

`np.where` 是向量化的条件赋值工具，可替代繁琐的循环判断。

In [20]:
cond_data = rng.standard_normal((3, 4))
print(f"Original conditional data:\n{cond_data}")

where_result = np.where(cond_data > 0, 1, -1)
print(f"\nResult after np.where(cond_data > 0, 1, -1):\n{where_result}")

Original conditional data:
[[-0.82448122  0.65059279  0.74325417  0.54315427]
 [-0.66550971  0.23216132  0.11668581  0.2186886 ]
 [ 0.87142878  0.22359555  0.67891356  0.06757907]]

Result after np.where(cond_data > 0, 1, -1):
[[-1  1  1  1]
 [-1  1  1  1]
 [ 1  1  1  1]]


#### 4. 唯一值与集合操作

使用 `np.unique`、`np.in1d` 进行集合操作，筛选或比较数据。

In [21]:
data_with_dupes = np.array([1, 2, 1, 3, 5, 2, 1, 1, 5])
print(f"Original data with duplicates: {data_with_dupes}")

unique_values = np.unique(data_with_dupes)
print(f"Unique values: {unique_values}")

values_to_check = [2, 3, 4]
membership_mask = np.in1d(data_with_dupes, values_to_check)
print(f"\nIs element in {values_to_check}? {membership_mask}")

elements_found = data_with_dupes[membership_mask]
print(f"Elements found in {values_to_check}: {elements_found}")

Original data with duplicates: [1 2 1 3 5 2 1 1 5]
Unique values: [1 2 3 5]

Is element in [2, 3, 4]? [False  True False  True False  True False False False]
Elements found in [2, 3, 4]: [2 3 2]


### 五、保存与加载数组

利用 NumPy 原生的 `.npy` 与 `.npz` 格式高效持久化数组。

In [22]:
array_path = ARTIFACT_DIR / "my_array.npy"
np.save(array_path, M)
print(f"Array M saved to {array_path}")

Array M saved to artifacts\numpy\my_array.npy


In [23]:
loaded_M = np.load(array_path)
print("Array loaded from my_array.npy:")
print(loaded_M)

Array loaded from my_array.npy:
[[ 50  30  18  59  89]
 [ 15  87 999  34  66]
 [ 24  78  73  41  16]
 [ 97  50  90  71  80]]


In [24]:
arrays_path = ARTIFACT_DIR / "my_arrays.npz"
np.savez(arrays_path, array_x=X, array_y=Y)
print(f"Arrays X and Y saved to {arrays_path}")

loaded_data = np.load(arrays_path)
print("Loaded array_x from .npz file:")
print(loaded_data['array_x'])

Arrays X and Y saved to artifacts\numpy\my_arrays.npz
Loaded array_x from .npz file:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


---
**实践小结**: 通过本 Notebook，你已经掌握了 NumPy 数组的创建、索引、核心操作与持久化。重点理解视图与拷贝的区别、广播原理以及 `axis` 参数的作用。接下来你可以继续学习 Pandas，进一步处理表格数据。