python:删掉重复行之drop_duplicates()用法
drop_duplicates()
是 pandas 库中 DataFrame 对象的一个方法,用于删除数据中的重复行。
基本用法如下:
import pandas as pd
# 创建一个DataFrame
df = pd.DataFrame({
'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4],
'B': [1, 1, 2, 3, 3, 3, 4, 4, 4, 4]
})
# 删除重复行
df_unique = df.drop_duplicates()
print(df_unique)
如果你想基于某个特定列删除重复项,可以指定 subset
参数:
df_unique = df.drop_duplicates(subset=['A'])
如果你想保留重复行中的最后一项而不是第一项,可以使用 keep
参数:
df_unique = df.drop_duplicates(keep='last')
keep
参数的默认值是 first
,意味着重复行中的第一项会被保留并删除。如果设置为 last
,则会保留最后一项并删除其他重复项。如果设置为 False
,所有的重复行都会被删除。
评论已关闭