python去重函数是什么

互联网 19-10-22

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

参数:

subset:列标签或标签序列,可选

仅考虑用于标识重复项的某些列,默认情况下使用所有列

keep:{‘first’,‘last’,False},默认’first’

first:标记重复,True除了第一次出现。

last:标记重复,True除了最后一次出现。

错误:将所有重复项标记为True。

相关推荐:《Python基础教程》

import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique()) # [0. 1.] # 使用duplicated 查看重复值 # 参数 keep 可以标记重复值 {'first','last',False} print(df['Seqno'].duplicated()) ''' 0    False 1     True 2     True 3     True 4    False Name: Seqno, dtype: bool ''' # 删除 series 重复数据 print(df['Seqno'].drop_duplicates()) ''' 0    0.0 4    1.0 Name: Seqno, dtype: float64 ''' # 删除 dataframe 重复数据 print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重 '''    Price     Seqno   Symbol   time 0  1623.0    0.0   APPL  1473411962 4  1649.0    1.0   APPL  1473411963 ''' # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个 '''    Price     Seqno   Symbol   time 3  1623.0    0.0   APPL  1473411963 4  1649.0    1.0   APPL  1473411963 '''

以上就是python去重函数是什么的详细内容,更多内容请关注技术你好其它相关文章!

来源链接:
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
标签: 去重函数
上一篇:php获取远程图片并下载保存到本地的方法分析 下一篇:python里的π怎么输入

相关资讯