Pandas是什么

Pandas是一个开源的第三方Python库,从Numpy和Matplotlib的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas已经成为Python数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。Pandas这个名字来源于面板数据(PanelData)与数据分析(dataanalysis)这两个名词的组合。在经济学中,PanelData是一个关于多维数据集的术语。Pandas最初被应用于金融量化交易领域,现在它的应用领域更加广泛,涵盖了农业、工业、交通等许多行业。Pandas最初由WesMcKinney(韦斯·麦金尼)于2008年开发,并于2009年实现开源。目前,Pandas由PyData团队进行日常的开发和维护工作。在2020年12月,PyData团队公布了最新的Pandas1.20版本。在Pandas没有出现之前,Python在数据分析任务中主要承担着数据采集和数据预处理的工作,但是这对数据分析的支持十分有限,并不能突出Python简单、易上手的特点。Pandas的出现使得Python做数据分析的能力得到了大幅度提升,它主要实现了数据分析的五个重要环节:加载数据整理数据操作数据构建数据模型分析数据Pandas主要特点Pandas主要包括以下几个特点:它提供了一个简单、高效、带有默认标签(也可以自定义标签)的DataFrame对象。能够快速得从不同格式的文件中加载数据(比如Excel、CSV、SQL文件),然后将其转换为可处理的对象;能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;能够很方便地实现数据归一化操作和缺失值处理;能够很方便地对DataFrame的数据列进行增加、修改或者删除的操作;能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等。上述知识点将在后续学习中为大家一一讲解。Pandas主要优势与其它语言的数据分析包相比,Pandas具有以下优势:Pandas的DataFrame和Series构建了适用于数据分析的存储结构;Pandas简洁的API能够让你专注于代码的核心层面;Pandas实现了与其他库的集成,比如Scipy、scikit-learn和Matplotlib;Pandas官方网站(点击访问)提供了完善资料支持,及其良好的社区环境。Pandas内置数据结构我们知道,构建和处理二维、多维数组是一项繁琐的任务。Pandas为解决这一问题,在ndarray数组(NumPy中的数组)的基础上构建出了两种不同的数据结构,分别是Series(一维数据结构)DataFrame(二维数据结构):Series是带标签的一维数组,这里的标签可以理解为索引,但这个索引并不局限于整数,它也可以是字符类型,比如a、b、c等;DataFrame是一种表格型数据结构,它既有行标签,又有列标签。下面对上述数据结构做简单地的说明:数据结构维度说明Series1该结构能够存储各种数据类型,比如字符数、整数、浮点数、Python 对象等,Series 用 name 和 index 属性来描述数据值。Series 是一维数据结构,因此其维数不可以改变。DataFrame2DataFrame 是一种二维表格型数据的结构,既有行索引,也有列索引。行索引是 index,列索引是 columns。在创建该结构时,可以指定相应的索引值。

(0)

相关推荐

  • Python pandas是什么?有何作用?

    Python中pandas是什么?Pandas是基于numpy的一种工具,该工具是为了解决数据分析任务而创建的. Pandas纳入了大量的库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. ...

  • (附代码)Pandas必会的方法汇总,用Python做数据分析更加如鱼得水!

    编者荐语用Python做数据分析光是掌握numpy和matplotlib可不够,Pandas是必须要掌握的一个重点,numpy虽然能够帮我们处理处理数值型数据,但是这还不够,很多时候,我们的数据除了数 ...

  • Pandas 使用教程

    Pandas 基础使用教程(1) Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取.转换.过滤.分析等一系列操作.除此之外,Pandas 拥有强大的缺失数据处理与数据透 ...

  • 什么是Numpy?与Pandas的差异!

    Pandas和Numpy想必大家都听说过,一个是数值计算的扩展包,一个是做数据处理的,那么它们之间有何区别呢?我们通过这篇文章来看看吧. 什么是Numpy? Numpy系统是Python的一种开源的数 ...

  • Pandas和Series有何关联?Python入门分享!

    想必大家都知道pandas,它是基于Numpy的一种工具,可以解决数据分析任务,也是Python学习过程中经常会用到的工具.而Series是pandas中最基本的对象,类似一种一维数组,那么Panda ...

  • 利用python tushare pandas进行财报分析

    一.财报分析 大家在购买股票的时候,已经不只是凭感觉去买了,基本上都会对一个股票进行深入的分析. 毕竟购买股票还是一项风险性较高的投资,需要在较为熟悉以后才能去开展,不能蛮干,钱也都不是天上掉下来的. ...

  • 财务数据分析神器Pandas:数据提取

    财务数据分析神器Pandas:数据提取

  • 从列表或字典创建Pandas的DataFrame对象的方法

    介绍 每当我使用pandas进行分析时,我的第一个目标是使用众多可用选项中的一个将数据导入Pandas的DataFrame . 对于绝大多数情况下,我使用的 read_excel , read_csv ...

  • 太强大了!一款可以像操作Excel一样玩Pandas的可视化神器来了!

    来源:程序员Github 大家好,我是Stitin涛哥! Pandas这个库对Python来说太重要啦!因为它的出现,让Python进行数据分析如虎添翼,作为Python里面最最牛逼的库之一,它在数据 ...

  • pandas数据分析案例:美国2012年总统候选人政治献金数据分析

    方便大家操作,将月份和参选人以及所在政党进行定义: months = {'JAN': 1, 'FEB': 2, 'MAR': 3, 'APR': 4, 'MAY': 5, 'JUN': 6, 'JUL ...

  • Pandas Series简述

    Series是Pandas的核心数据结构之一,也是理解高阶数据结构DataFrame的基础. Series是一种类似于一维数组的数据结构,是由一组数据及与之对应的标签(即索引)构成的.列表内的元素可以 ...

  • 入门Pandas不可不知的技巧

    大家好,我是Python之眼. 今天来跟大家分享 Pandas 的一些常用知识点,文章内容由公众号读者 Peter 创作. 如果你用 Python 做数据分析,必然会绕不过 Pandas 的使用,实际 ...

  • pandas随机排列与随机抽样

    随机排列 利用 numpy.random.permutation() 函数,可以返回一个序列的随机排列.将此随机排列作为 take() 函数的参数,通过应用 take() 函数就可实现按此随机排列来调 ...