我们专注攀枝花网站设计 攀枝花网站制作 攀枝花网站建设
成都网站建设公司服务热线:400-028-6601

网站建设知识

十年网站开发经验 + 多家企业客户 + 靠谱的建站团队

量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决

Python中如何Pandas代码助数据从业人员开启新征程

这期内容当中小编将会给大家带来有关Python中如何Pandas代码助数据从业人员开启新征程,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

为大通等地区用户提供了全套网页设计制作服务,及大通网站建设行业解决方案。主营业务为成都做网站、网站设计、大通网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!

摘要

Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。不少利用Python做数据分析的朋友应该对Pandas不陌生,这里给大家总结了20个常用的Pandas代码帮助大家更快速的理解数据。

我这里将这20个Pandas代码分成三类:

  • 基本数据信息

  • 基本数据处理

  • 操作Data frames

基本数据信息

1、基本读写数据集(CSV、Execl)

# csv
# 读
pd.DataFrame.from_csv(“csv_file”) 
pd.read_csv(“csv_file”)
# 写
df.to_csv("data.csv", sep=",", index=False) # 逗号分隔,没有下标
# execl
pd.read_excel("excel_file")
df.to_execl("data.xlsx",sheet_name='a')

2、基本数据集特征

df.info()

3、基本数据统计

df.describe()

4、将data frames输出到一张表里(tabulate模块)

from tabulate import tabulate
print(tabulate(print_table, headers=headers))
# print_table 为包含列表的列表
# headers 为表头所包含的字段

5、列出所有的字段

df.columns

6、得到前后n行

df.head(n) #前n行
df.tail(n) #后n行

7、通过特征、位置定位数据

df.loc[feature_name]
#选择“size”列的第一行
df.loc([0], ['size'])
df.iloc[n] # 位置

基本数据处理

8、去除缺失值

df.dropna(axis=0, how='any')

9、替换缺失值

df.replace(to_replace=None, value=None)
# 将“to_replace”中的值替换为“value”

10、检查缺失值

pd.isnull(object)
# 检测缺失值(数值数组中的NaN,对象数组中的None/NaN)

11、删除一个字段

df.drop('feature_variable_name', axis=1)
# 轴对于行是0,对于列是1

12、将对象类型转换为数值

pd.to_numeric(df["feature_name"], errors='coerce')
# 将对象类型转换为numeric以便能够执行计算(如果它们是字符串)

13、将Dataframe转换为numpy数组

df.as_matrix()

操作Data frames

14、将函数应用于dataframe

# 这个将把数据的“height”列中的所有值乘以2
1、df["height"].apply(lambda height: 2 * height)
2、def multiply(x):
 return x * 2
df["height"].apply(multiply)

15、从命名一列

# 这里,将把数据的第三列重命名为“size”
df.rename(columns = {df.columns[2]:'size'}, inplace=True)

16、获取某列的唯一项

# 这里将得到列“name”的唯一条目
df["name"].unique()

17、多级访问

# 在这里,将从数据中获取列的选择,“name”和“size”
new_df = df[["name", "size"]]

18、数据的一些统计量df.sum()

df.min()
df.max()
df.idxmin()
df.idxmax() #返回最大值索引
df.mean()
df.median()
df.corr() # 不同列之间的相关系数
df["size"].median

19、 数据排序

df.sort_values(ascending = False)

20、布尔索引

df[df["size"] == 5] #布尔型索引

上述就是小编为大家分享的Python中如何Pandas代码助数据从业人员开启新征程了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联行业资讯频道。


新闻名称:Python中如何Pandas代码助数据从业人员开启新征程
链接地址:http://shouzuofang.com/article/gsojje.html

其他资讯