导航
- 索引
- 模块 |
- 下一个 |
- pandas 0.19.2 documentation»
目录
- 新功能
- 安装
- 为pandas贡献
- 常见问题(FAQ)
- 套装概述
- 10分钟入门pandas
- 教程
- 食谱
- 数据结构简介
- 基本基本功能
- 使用文本数据
- 选项和设置
- 索引和选择数据
- MultiIndex /高级索引
- 计算工具
- 使用缺失数据
- 分组:split-apply-combine
- 合并,连接和连接
- 整形和数据透视表
- 时间系列/日期功能
- 时间Deltas
- 分类数据
- 可视化
- 样式
- IO工具(文本,CSV,HDF5,...)
- 远程数据访问
- 增强性能
- 稀疏数据结构
- 告诫和诀窍
- rpy2 / R interface
- pandas生态系统
- 与R / R库比较
- 与SQL比较
- 与SAS的比较
- API参考
- 内部
- 发行说明
搜索
输入搜索字词或模块,类或函数名称。
pandas:强大的Python数据分析工具包¶
PDF版本
已压缩的HTML
日期:2016年12月24日版本:0.19.2
二进制安装: http://pypi.python.org/pypi/pandas
源代码仓库: http://github.com/pydata/pandas
问题&想法: https://github.com/pydata/pandas/issues
Q&A支持: http://stackoverflow.com/questions/tagged/pandas
开发人员邮件列表: http://groups.google.com/group/pydata
pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。
pandas非常适合许多不同类型的数据:
- 具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
- 有序和无序(不一定是固定频率)时间序列数据。
- 带有行和列标签的任意矩阵数据(均匀类型或异质)
- 任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中
pandas的两个主要数据结构Series
(一维)和DataFrame
(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame
提供R的data.frame
所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。
这里只是几个pandas做得很好的事情:
- 轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
- 大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
- 自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据
- 功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
- 使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
- 基于智能标签的切片,花式索引和子集化大数据集
- 直观的合并和连接数据集
- 灵活的重塑和数据集的旋转
- 轴的分层标签(每个标记可能有多个标签)
- 用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
- 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。
许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。
其他一些注释
- pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
- pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
- pandas已广泛用于金融应用的产品。
注意
本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy。
有关库中的内容的更多详细信息,请参阅软件包概述。
- 新功能
- v0.19.2(2016年12月24日)
- 增强功能
- 性能改进
- 错误修正
- v0.19.1(2016年11月3日)
- 性能改进
- 错误修正
- v0.19.0(2016年10月2日)
- 新功能
merge_asof
用于asof风格的时间序列加入.rolling()
现在是时间系列感知read_csv
已改进对重复列名称的支持read_csv
支持直接解析Categorical
- 分类连接
- 半月偏移
- 新建索引方法
- Google BigQuery增强功能
- 细粒度数字错误状态
get_dummies
现在返回整数dtypes- 将
to_numeric
中的最小可能dtype向下转换 - pandas开发API
- 其他增强功能
- API更改
Series.tolist()
现在将返回Python类型Series
系列Series
在分配时促销.to_datetime()
更改- 合并更改
.describe()
更改Period
更改- 索引
+
/-
不再用于设置操作 Index.difference
和.symmetric_difference
更改Index.unique
始终返回Index
MultiIndex
构造函数,groupby
和set_index
保留分类dtypesread_csv
将逐步枚举块- 稀疏更改
- 索引器dtype更改
- 其他API更改
- 弃用
- 删除以前的版本弃用/更改
- 性能改进
- 错误修正
- 新功能
- v0.18.1(2016年5月3日)
- 新功能
- 自订工作时间
.groupby(..)
语法与窗口和重新抽样操作- 方法链改进
- 当
MultiIndex
的一部分时,DateTimeIndex
- 汇编数据时
- 其他增强功能
- 稀疏变化
- API更改
.groupby(..).nth()
更改- numpy功能兼容性
- 在groupby重新取样上使用
.apply
read_csv
异常中的更改to_datetime
错误更改- 其他API更改
- 弃用
- 性能改进
- 错误修正
- 新功能
- v0.18.0(2016年3月13日)
- 新功能
- 窗口函数现在是方法
- 更改重命名
- 范围索引
- 更改为str.extract
- 添加str.extractall
- 更改为str.cat
- 数据类型舍入
- FloatIndex中的整数格式
- 更改dtype分配行为
- to_xarray 0>
- 乳胶表示
pd.read_sas()
更改- 其他增强功能
- 向后不兼容的API更改
- NaT和Timedelta操作
- 更改为msgpack
- .rank的签名更改
- QuartBegin中的错误,n = 0
- 重新取样API
- 更改为eval
- 其他API更改
- 弃用
- 删除已弃用的浮动索引器
- 删除以前的版本弃用/更改
- 性能改进
- 错误修正
- 新功能
- v0.17.1(2015年11月21日)
- 新功能
- 条件HTML格式
- 增强功能
- API更改
- 弃用
- 性能改进
- 错误修正
- 新功能
- v0.17.0(2015年10月9日)
- 新功能
- Datetime with TZ
- 释放GIL
- 绘制子方法
dt
存取器的其他方法- 周期频率增强
- 支持SAS XPORT文件
- 支持.eval()中的数学函数
- 使用
MultiIndex
更改Excel - Google BigQuery增强功能
- 使用Unicode东亚宽度显示对齐
- 其他增强功能
- 向后不兼容的API更改
- 对排序API的更改
- 更改为to_datetime和to_timedelta
- 更改索引比较
- 更改为布尔比较与无
- HDFStore dropna behavior
- 更改为
display.precision
选项 - 更改为
Categorical.unique
- 在解析器中将
bool
更改为header
- 其他API更改
- 弃用
- 删除以前的版本弃用/更改
- 性能改进
- 错误修正
- 新功能
- v0.16.2(2015年6月12日)
- 新功能
- 管道
- 其他增强功能
- API更改
- 性能改进
- 错误修正
- 新功能
- v0.16.1(2015年5月11日)
- 增强功能
- CategoricalIndex
- 示例
- 字符串方法增强
- 其他增强功能
- API更改
- 弃用
- 索引表示
- 性能改进
- 错误修正
- 增强功能
- v0.16.0(2015年3月22日)
- 新功能
- DataFrame分配
- 与scipy.sparse的交互
- 字符串方法增强
- 其他增强功能
- 向后不兼容的API更改
- Timedelta的变化
- 索引更改
- 分类更改
- 其他API更改
- 弃用
- 删除以前的版本弃用/更改
- 性能改进
- 错误修正
- 新功能
- v0.15.2(2014年12月12日)
- API更改
- 增强功能
- 效果
- 错误修正
- v0.15.1(2014年11月9日)
- API更改
- 增强功能
- 错误修正
- v0.15.0(2014年10月18日)
- 新功能
- Series / DataFrame中的分类
- TimedeltaIndex / Scalar
- 内存使用
- .dt存取器
- 时区处理改进
- 滚动/展开时机改进
- sql io模块的改进
- 向后不兼容的API更改
- 突变更改
- 内部重构
- 弃用
- 删除以前的版本弃用/更改
- 增强功能
- 效果
- 错误修正
- 新功能
- v0.14.1(2014年7月11日)
- API更改
- 增强功能
- 效果
- 实验
- 错误修正
- v0.14.0(2014年5月31日)
- API更改
- 显示更改
- 文本解析API更改
- Groupby API更改
- SQL
- MultiIndexing Using Slicers
- 绘图
- 先前版本弃用/更改
- 弃用
- 已知问题
- 增强功能
- 效果
- 实验
- 错误修正
- v0.13.1(2014年2月3日)
- 输出格式增强
- API更改
- 先前版本弃用/更改
- 弃用
- 增强功能
- 效果
- 实验
- 错误修正
- v0.13.0(2014年1月3日)
- API更改
- 先前版本弃用/更改
- 弃用
- 索引API更改
- Float64Index API Change
- HDFStore API更改
- DataFrame repr更改
- 增强功能
- 实验
- 内部重构
- 错误修正
- v0.12.0(2013年7月24日)
- API更改
- I / O增强功能
- 其他增强功能
- 实验功能
- 错误修正
- v0.11.0(2013年4月22日)
- 选择选择
- 选择弃用
- Dtypes
- Dtype Conversion
- Dtype Gotchas
- 数据时间转换
- API更改
- 增强功能
- v0.10.1(2013年1月22日)
- API更改
- 新功能
- HDFStore
- v0.10.0(2012年12月17日)
- 文件解析新功能
- API更改
- 新功能
- 宽数据框架打印
- 更新了PyTables支持
- N Dimensional Panels(实验)
- v0.9.1(2012年11月14日)
- 新功能
- API更改
- v0.9.0(2012年10月7日)
- 新功能
- API更改
- v0.8.1(2012年7月22日)
- 新功能
- 性能提升
- v0.8.0(2012年6月29日)
- 支持非唯一索引
- NumPy datetime64 dtype和1.6 dependency
- 时间序列变化和改进
- 其他新功能
- 新的绘图方法
- 其他API更改
- pandas< = 0.7.3位用户的潜在移植问题
- v.0.7.3(2012年4月12日)
- 新功能
- NA Boolean比较API更改
- 其他API更改
- v.0.7.2(2012年3月16日)
- 新功能
- 性能提升
- v.0.7.1(2012年2月29日)
- 新功能
- 性能提升
- v.0.7.0(2012年2月9日)
- 新功能
- API对整数索引的更改
- 有关基于标签的切片的API调整
- 更改为系列
[]
运算符 - 其他API更改
- 性能提升
- v.0.6.1(2011年12月13日)
- 新功能
- 性能提升
- v.0.6.0(2011年11月25日)
- 新功能
- 性能增强
- v.0.5.0(2011年10月24日)
- 新功能
- 性能增强
- v.0.4.3至v0.4.1(2011年9月25日 - 10月9日)
- 新功能
- 性能增强
- v0.19.2(2016年12月24日)
- 安装
- Python版本支持
- 安装pandas
- 尝试熊猫,无需安装!
- 使用Anaconda安装大熊猫
- 使用Miniconda安装大熊猫
- 从PyPI安装
- 使用您的Linux发行版软件包管理器安装
- 从源安装
- 运行测试套件
- 依赖关系
- 推荐的依赖关系
- 可选依赖关系
- 贡献给pandas
- 从哪里开始?
- 错误报告和增强请求
- 使用代码
- 版本控制,Git和GitHub
- 开始使用Git
- 分岔
- 创建分支
- 创建开发环境
- 创建Windows开发环境
- 进行更改
- 参与文档
- 关于pandas文档
- 如何构建pandas文档
- 要求
- 构建文档
- 构建主分支文档
- 有助于代码库
- 代码标准
- 测试驱动开发/代码编写
- 写测试
- 运行测试套件
- 运行性能测试套件
- 运行Google BigQuery集成测试
- 运行vbench性能测试套件(逐步淘汰)
- 记录您的代码
- 贡献您对pandas的更改
- 提交代码
- 组合提交
- 推送更改
- 检查您的代码
- 最后,请求拉请求
- 删除合并的分支(可选)
- 常见问题(FAQ)
- DataFrame内存使用
- 字节排序问题
- 在Qt应用程序中可视化数据
- 套装概述
- 数据结构一览
- 为什么有多个数据结构?
- 数据的可变性和复制
- 获取支持
- 学分
- 开发团队
- 许可证
- 数据结构一览
- 10分钟到熊猫
- 对象创建
- 查看数据
- 选择
- 取得
- 按标签选择
- 按位置选择
- 布尔索引
- 设置
- 缺少数据
- 操作
- 统计
- 应用
- 直方图
- 字符串方法
- 合并
- Concat
- 加入
- 附加
- 分组
- 整形
- 堆栈
- 数据透视表
- 时间序列
- 分类
- 绘图
- 获取数据输入/输出
- CSV
- HDF5
- Excel
- Gotchas
- 教程
- 内部指南
- pandas Cookbook
- 新建pandas用户课程
- 使用Python进行实际数据分析
- 现代大熊猫
- 包含pandas,vincent和xlsxwriter的Excel图表
- 各种教程
- 食谱
- 成语
- if-then ...
- 拆分
- 建立条件
- 选择
- DataFrames
- 面板
- 新列
- MultiIndexing
- 算术
- 切片
- 排序
- 级别
- panelnd
- 缺少数据
- 替换
- 分组
- 展开数据
- 拆分
- Pivot
- 应用
- 时间库
- 重新采样
- 合并
- 绘图
- 数据输入/输出
- CSV
- 跳过标题和数据之间的行
- SQL
- Excel
- HTML
- HDFStore
- 二进制文件
- CSV
- 计算
- Timedeltas
- 别名轴名称
- 创建示例数据
- 成语
- 数据结构简介
- 系列
- 系列是类似ndarray的
- 系列是类似于dict的
- 用系列进行矢量化操作和标签对齐
- 名称属性
- DataFrame
- From Series或dicts
- From ndarrays / lists
- 来自结构化或记录数组
- 从病例列表
- 从元组的字典
- 来自系列
- 替代构造函数
- 列选择,添加,删除
- 在方法链中分配新列
- 索引/选择
- 数据对齐和算术
- 转置
- DataFrame与NumPy函数的互操作性
- 主机显示
- DataFrame列属性访问和IPython完成
- 面板
- 从具有可选轴标签的3D ndarray
- 来自DataFrame对象的dict
- 从DataFrame使用
to_panel
方法 - 项目选择/添加/删除
- 转置
- 索引/选择
- 压缩
- 转换为DataFrame
- Panel4D和PanelND(已弃用)
- 系列
- 基本基本功能
- 头部和尾部
- 属性和原始数组
- 加速操作
- 灵活的二进制操作
- 匹配/广播行为
- 缺少填充值的数据/操作
- 灵活比较
- 布尔减少
- 比较对象是否等效
- 比较类似数组的对象
- 组合重叠数据集
- 一般DataFrame组合
- 描述性统计
- 汇总数据:describe
- 最小/最大值索引
- 值计数(直方图)/模式
- 离散化和量化
- 功能应用
- 表格函数应用
- 行或列函数应用程序
- 应用单元Python函数
- 使用面板
- 重新索引和更改标签
- 重新建立索引以与其他物件对齐
- 使用
align
使对象彼此对齐 - 在重建索引时填充
- 重建索引时填充限制
- 从轴删除标签
- 重命名/映射标签
- 迭代
- iteritems
- iterrows
- itertuples
- .dt存取器
- 向量化字符串方法
- 排序
- 按索引
- 按值
- searchsorted
- 最小/最大值
- 按多索引列排序
- 复制
- dtypes
- 默认值
- upcasting
- astype
- 对象转换
- gotchas
- 根据
dtype
选择列
- 使用文本数据
- 拆分和替换字符串
- 使用
.str
建立索引 - 提取子字符
- 提取每个主题中的第一个匹配(提取)
- 提取每个主题中的所有匹配项(extractall)
- 测试匹配或包含模式的字符串
- 创建指标变量
- 方法摘要
- 选项和设置
- 概述
- 获取和设置选项
- 在python / ipython环境中设置启动选项
- 常用选项
- 可用选项
- 数字格式
- Unicode格式
- 索引和选择数据
- 索引的不同选项
- 基础
- 属性访问
- 切片范围
- 按标签选择
- 按位置选择
- 可选呼叫
- 选择随机样本
- 放大设置
- 快速标量值获取和设置
- 布尔索引
- 使用isin索引
where()
方法和屏蔽query()
方法(实验)MultiIndex
query()
语法query()
使用案例query()
Python与pandas语法比较- The
in
andnot in
operators ==
运算符与list
特殊使用 t>- 布尔运算符
query()
的性能
- 重复数据
- 类似字典的
get()
方法 select()
方法lookup()
方法- 索引对象
- 设置元数据
- 设置索引对象上的操作
- 缺少值
- 设置/复位索引
- 设置索引
- 重置索引
- 添加专用索引
- 返回视图与副本
- 为什么在使用链接索引时失败?
- 评估顺序重要
- MultiIndex /高级索引
- 分层索引(MultiIndex)
- 创建MultiIndex(分层索引)对象
- 重建级别标签
- 使用MultiIndex在轴上进行基本索引
- 数据对齐并使用
reindex
- 使用分层索引的高级索引
- 使用切片器
- 截面
- 高级重建索引和对齐
- 与
swaplevel()
交换级别 - 使用
reorder_levels()
重新排序级别
- 对
MultiIndex
进行排序 - 采取方法
- 索引类型
- CategoricalIndex
- Int64Index和RangeIndex
- Float64Index
- 分层索引(MultiIndex)
- 计算工具
- 统计函数
- 变化百分比
- 协方差
- 相关
- 数据排名
- 窗口函数
- 方法摘要
- 滚动窗口
- 时间感知滚动
- 时间感知滚动与重新采样
- 居中Windows
- 二进制窗口函数
- 计算滚动成对协方差和相关性
- 汇总
- 一次应用多个函数
- 将不同的函数应用于DataFrame列
- 扩展Windows
- 方法摘要
- 指数加权窗口
- 统计函数
- 使用缺失数据
- 缺少数据基础
- 何时/为什么数据丢失?
- 认为“缺少”的值
- 数据时间
- 插入缺失数据
- 使用缺失数据的计算
- GroupBy中的NA值
- 清除/填充缺少的数据
- 填充缺失值:fillna
- 填充PandasObject
- 删除缺少数据的轴标签:dropna
- 插值
- 插值限制
- 替换通用值
- 字符串/正则表达式替换
- 数字替换
- 缺少数据投射规则和索引
- 缺少数据基础
- 分组:split-apply-combine
- 将对象拆分为组
- GroupBy排序
- GroupBy对象属性
- GroupBy with MultiIndex
- GroupBy中的DataFrame列选择
- 迭代组
- 选择群组
- 汇总
- 一次应用多个函数
- 将不同的函数应用于DataFrame列
- Cython优化的聚合函数
- 转换
- 新窗口和重新采样操作的语法
- 过滤
- 调度到实例方法
- 灵活
apply
- 其他有用的功能
- 自动排除“麻烦”列
- NA和NaT组处理
- 使用有序因子分组
- 使用Grouper规范分组
- 取每组的第一行
- 取每组的第n行
- 枚举组项
- 绘图
- 示例
- 按要素重新分组
- 由Indexer分组为“重新取样”数据
- 返回一个系列以传播名称
- 将对象拆分为组
- 合并,连接和连接
- 连接对象
- 设置其他轴上的逻辑
- 使用
append
连接 - 忽略并置轴上的索引
- 与混合ndims连接
- 更多与组键的连接
- 将行附加到DataFrame
- 数据库式DataFrame加入/合并
- 合并方法简介(关系代数)
- 合并指示符
- 加入索引
- 在索引上加入键列
- 将单个索引加入多索引
- 加入两个多索引
- 重叠值列
- 加入多个DataFrame或Panel物件
- 将Series或DataFrame列中的值合并在一起
- 时代友好合并
- 合并有序数据
- 合并AsOf
- 连接对象
- 整形和数据透视表
- 通过旋转DataFrame对象重整形
- 通过堆叠和拆堆整形
- 多级别
- 缺少数据
- 使用MultiIndex
- 通过熔体重塑
- 结合统计资料和GroupBy
- 数据透视表
- 添加边距
- 交叉表
- 规范化
- 添加边距
- 平铺
- 计算指标/虚拟变量
- 因式分解值
- 时间系列/日期功能
- 概述
- 时间戳与时间间隔
- 转换为时间戳
- 无效数据
- 纪元时间戳
- 生成时间戳范围
- 时间戳记限制
- DatetimeIndex
- DatetimeIndex部分字符串索引
- 日期时间索引
- 截断&花式索引
- 时间/日期组件
- DateOffset objects
- 参数偏移
- 使用与
Series
/DatetimeIndex
- 自定义营业日(实验)
- 营业时间
- 自订工作时间
- 抵销别名
- 组合别名
- 锚定偏移
- 锚定偏移语义
- 假日/假日日历
- 时间序列相关的实例方法
- 移动/滞后
- 频率转换
- 向前/向后填充
- 转换为Python数据时间
- 重新采样
- 上采样
- 稀疏重采样
- 汇总
- 时间跨度表示
- 周期
- PeriodIndex和period_range
- 期间类型
- PeriodIndex部分字符串索引
- Frequency Conversion and Resampling with PeriodIndex
- 表示之间的转换
- 表示超出范围
- 时区处理
- 使用时区
- 本地化时的模糊时间
- TZ感知Dtypes
- 时间Deltas
- 解析
- to_timedelta
- Timedelta限制
- 操作
- 减价
- 频率转换
- 属性
- TimedeltaIndex
- 使用TimedeltaIndex
- 操作
- 转化
- 重新采样
- 解析
- 分类数据
- 对象创建
- 描述
- 使用类别
- 重命名类别
- 附加新类别
- 删除类别
- 删除未使用的类别
- 设置类别
- 排序和排序
- 重新排序
- 多列排序
- 比较
- 操作
- 数据管理
- 取得
- 字符串和日期时间访问器
- 设置
- 合并
- 联合
- 连接
- 获取数据输入/输出
- 缺少数据
- 与R的因子的差异
- Gotchas
- 内存使用
- 旧样式构造函数用法
- 分类不是numpy数组
- dtype in apply
- 分类索引
- 副作用
- 可视化
- 基本绘图:
plot
- 其他图表
- 条形图
- 直方图
- 箱线图
- 面积图
- 散点图
- 六边形图
- 饼图
- 使用缺少数据绘图
- 绘图工具
- 散点矩阵图
- 密度图
- Andrews曲线
- 平行坐标
- 滞后图
- 自相关图
- Bootstrap Plot
- RadViz
- 绘图格式
- 控制图例
- 秤
- 在辅助Y轴上绘图
- 抑制Tick分辨率调整
- 子图
- 使用布局和定位多个轴
- 使用错误栏绘制
- 绘制表格
- 色层图片
- 直接用matplotlib绘制
- 网格绘图界面
- 基本绘图:
- 样式
- IO工具(文本,CSV,HDF5,...)
- CSV&文本文件
- 解析选项
- 基本
- 列和索引位置和名称
- 常规分析配置
- NA和缺少数据处理
- 日期时间处理
- 迭代
- 引用,压缩和文件格式
- 错误处理
- 指定列数据类型
- 指定分类dtype
- 命名和使用列
- 处理列名称
- 重复名称解析
- 过滤列(
usecols
)
- 过滤列(
- 评论和空行
- 忽略行注释和空行
- 评论
- 处理Unicode数据
- 索引列和尾部分隔符
- 日期处理
- 指定日期栏
- 日期解析函数
- 推迟日期时间格式
- 国际日期格式
- 指定浮点转换方法
- 千分割符
- NA值
- 无限
- 返回系列
- 布尔值
- 处理“坏”行
- 引用和转义字符
- 固定宽度列的文件
- 索引
- 带有“隐性”索引列的文件
- 使用
MultiIndex
读取索引 - 读取包含
MultiIndex
的列
- 自动“嗅探”分隔符
- 通过文件chunk by chunk迭代
- 指定解析器引擎
- 写出数据
- 正在写入CSV格式
- 写入格式化的字符串
- 解析选项
- JSON
- 写入JSON
- 定向选项
- 日期处理
- 回退行为
- 阅读JSON
- 数据转换
- Numpy参数
- 规范化
- 行分隔的json
- 写入JSON
- HTML
- 阅读HTML内容
- 写入HTML文件
- Excel文件
- 读取Excel文件
ExcelFile
类- 指定表格
- 读取
MultiIndex
- 解析特定列
- 单元转换器
- 写入Excel文件
- 将Excel文件写入磁盘
- 将Excel文件写入内存
- Excel写入程序引擎
- 读取Excel文件
- 剪贴簿
- 腌制
- msgpack(experimental)
- 读取/写入API
- HDF5(PyTables)
- 读取/写入API
- 固定格式
- 表格式
- 分层键
- 存储类型
- 在表中存储混合类型
- 存储多索引数据帧
- 查询
- 查询表
- 使用timedelta64 [ns]
- 索引
- 通过数据列查询
- 迭代器
- 高级查询
- 多表查询
- 从表中删除
- 注意事项注意事项
- 压缩
- ptrepack
- 注意事项
- DataTypes
- 分类数据
- 字符串列
- 外部兼容性
- 向后兼容性
- 效果
- 实验
- SQL查询
- pandas.read_sql_table
- pandas.read_sql_query
- pandas.read_sql
- pandas.DataFrame.to_sql
- 写入DataFrames
- SQL数据类型
- 阅读表格
- 架构支持
- 查询
- 发动机连接示例
- 高级SQLAlchemy查询
- Sqlite fallback
- Google BigQuery(实验)
- pandas.io.gbq.read_gbq
- pandas.io.gbq.to_gbq
- 验证
- 查询
- 写入DataFrames
- Creating BigQuery Tables
- Stata格式
- 写入Stata格式
- 从Stata格式读取
- 分类数据
- SAS格式
- 其他文件格式
- netCDF
- 效果注意事项
- CSV&文本文件
- 远程数据访问
- DataReader
- Google Analytics(分析)
- 配置Google Analytics(分析)的访问
- 使用Google Analytics(分析)API
- 增强性能
- Cython(为Pandas编写C扩展程序)
- Pure python
- Plain cython
- 添加类型
- 使用ndarray
- 更高级的技术
- 使用numba
- Jit
- 向量化
- 注意事项
- 通过
eval()
(实验)的表达式求值- 支持的语法
eval()
示例DataFrame.eval
方法(实验)- 局部变量
pandas.eval()
解析器pandas.eval()
后端pandas.eval()
性能- 关于表达评估的技术细节
- Cython(为Pandas编写C扩展程序)
- 稀疏数据结构
- SparseArray
- SparseList
- SparseIndex对象
- 稀疏数字
- 稀疏计算
- 与scipy.sparse的交互
- 告诫和诀窍
- 使用带pandas的If / Truth语句
- 按位布尔
- 使用运算符中的
in
NaN
,IntegerNA
值和NA
类型促销NA
表示的选择- 支持整数
NA
NA
类型促销- 为什么不让NumPy像R?
- 整数索引
- 基于标签的切片约定
- 非单调索引需要完全匹配
- 端点是包含
- 其他索引编制
- Reindex vs. ix getchas
- Reindex可能会更改底层的系列dtype
- 从文本文件解析日期
- 与NumPy的差异
- 线程安全
- HTML表解析
- 字节排序问题
- 使用带pandas的If / Truth语句
- rpy2 / R interface
- 更新您的代码以使用rpy2函数
- R接口与rpy2
- 将R数据集传输到Python
- 将DataFrames转换为R物件
- 使用pandas对象调用R函数
- R估计器的高级接口
- pandas生态系统
- 统计和机器学习
- Statsmodels
- sklearn-pandas
- 可视化
- 散景
- yhat / ggplot
- Seaborn
- Vincent
- IPython Vega
- Plotly
- Pandas-Qt
- IDE
- IPython
- quantopian / qgrid
- Spyder
- API
- pandas-datareader
- quandl / Python
- pydatastream
- pandaSDMX
- fredapi
- 域特定
- 地球物
- xarray
- 外核
- Dask
- Blaze
- Odo
- 统计和机器学习
- 与R / R库比较
- 快速参考
- 查询,过滤,取样
- 排序
- 转换
- 分组和汇总
- Base R
- 使用R的
c
aggregate
match
/%in%
tapply
subset
with
- 使用R的
- plyr
ddply
- reshape / reshape2
melt.array
melt.list
melt.data.frame
cast
factor
- 快速参考
- 与SQL比较
- SELECT
- WHERE
- GROUP BY
- JOIN
- INNER JOIN
- LEFT OUTER JOIN
- 右键加入
- FULL JOIN
- UNION
- 某些SQL分析和聚合函数的Pandas等价
- 前N行,偏移量
- 每组前N行
- UPDATE
- DELETE
- 与SAS的比较
- 数据结构
- 通用术语翻译
DataFrame
/Series
Index
- 数据输入/输出
- 从值构造DataFrame
- 数据结构