pandas

python2: 0.24.2, doc / python3: 1.1.5, doc / Homepage, github

定义

pandas 是一个 Python 包，提供快速、灵活且富有表现力的数据结构，旨在使“关系”或“标记”数据的处理变得简单直观。它的目标是成为在 Python 中进行实用的、真实世界数据分析的基本高级构建块。此外，它还有更广泛的目标，即成为任何语言中最强大、最灵活的开源数据分析/操作工具。它已经在朝着这个目标前进。

pandas 非常适合多种不同类型的数据：

具有异构类型列的表格数据，如 SQL 表或 Excel 电子表格中
有序和无序（不一定是固定频率）时间序列数据。
带有行和列标签的任意矩阵数据（同质类型或异构）
任何其他形式的观察/统计数据集。数据实际上根本不需要被标记就可以放入 pandas 数据结构中

pandas 的两种主要数据结构，Series（一维）和 DataFrame（二维），处理金融、统计、社会科学和许多工程领域的绝大多数典型用例。对于 R 用户来说，DataFrame 提供了 R 的“data.frame”提供的一切，甚至更多。 pandas 构建于“NumPy http://www.numpy.org”之上，旨在与许多其他第三方库在科学计算环境中良好集成。

特性

以下是 pandas 擅长的一些事情：

轻松处理浮动中的缺失数据（表示为“NaN”）点以及非浮点数据
- 大小可变性：列可以从 DataFrame 和更高维度插入和删除 物体
- 自动且显式的数据对齐：对象可以显式地对齐到一组标签，或者用户可以简单地忽略标签并让“Series”、“DataFrame”等在计算中自动为您对齐数据
- 强大、灵活的 group by 功能来执行 split-apply- 组合对数据集的操作，以聚合和转换数据
- 使其易于转换将其他Python和NumPy数据结构中的参差不齐、不同索引的数据转换为DataFrame 物体
- 基于智能标签的切片，花式索引 /pandas.pydata.org/pandas-docs/stable/indexing.html#advanced-indexing-with-ix) 和子集大数据集
- 直观的合并和[加入](https ://pandas.pydata.org/pandas-docs/stable/merging.html#joining-on-index）数据集
- 灵活的reshaping和pivoting /pandas.pydata.org/pandas-docs/stable/reshaping.html#pivot-tables-and-cross-tabulations）数据集
- Hierarchical 轴标签（每个刻度可能有多个标签）
- 强大的 IO tools for loading data from flat files (CSV and delimited), Excel files, databases, and saving/loading data from the ultrafast HDF5 format
- 时间序列特定功能：日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期平移和滞后等。

其中许多原则都是为了解决使用其他语言/科学研究环境时经常遇到的缺点。对于数据科学家来说，处理数据通常分为多个阶段：
整理和清理数据，对其进行分析/建模，然后将分析结果组织成适合绘图或表格显示的形式。 pandas 是完成所有这些任务的理想工具。

依赖

NumPy: 1.12.0 or higher
python-dateutil: 2.5.0 or higher
pytz: 2011k or higher

使用

import pandas as pd

# 版本
pd.__version__

Series

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

Series 由索引（index）和列组成，函数如下：

pandas.Series( data, index, dtype, name, copy)

参数说明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

a = ['Google', 'Software', 'Pretool']
index = ['x', 'y', 'z']
sites = {1: "Google", 2: "Software", 3: "Pretool"}
name = 'sites'

pd.Series(a)
pd.Series(a, index)
pd.Series(sites)
pd.Series(a, index, name)

DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)

参数说明：

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

data = [['Google',10],['Runoob',12],['Wiki',13]]
df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
df = pd.DataFrame(data)

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)

data = {"calories": [420, 380, 390],"duration": [50, 40, 45]}
df = pd.DataFrame(data)

# 返回第一行  # 返回第二行  # 返回第一行和第二行
df.loc[0]
df.loc[1]
df.loc[[0, 1]]

index = ["day1", "day2", "day3"]
df = pd.DataFrame(data, index)

df.loc["day2"]

缺失数据

dropna() # 过滤掉值为NaN的行
fillna() # 填充缺失数据
isnull() # 返回布尔数组，缺失值对应为True
notnull() # 返回布尔数组，缺失值对应为False

dropna

删除包含空字段的行

参数说明：

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
thresh：设置需要多少非空值的数据才可以保留下来的。
subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

使用 mean()、median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。