python:删掉重复行之drop_duplicates（）用法

作者：System 时间：2024年08月16日分类：所有,python 字数：610

这篇文章距离上次修改已过717天，其中的内容可能已经有所变动。

drop_duplicates() 是 pandas 库中 DataFrame 对象的一个方法，用于删除数据中的重复行。

基本用法如下：




import pandas as pd
 
# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 2, 3, 3, 3, 4, 4, 4, 4],
    'B': [1, 1, 2, 3, 3, 3, 4, 4, 4, 4]
})
 
# 删除重复行
df_unique = df.drop_duplicates()
 
print(df_unique)

如果你想基于某个特定列删除重复项，可以指定 subset 参数：




df_unique = df.drop_duplicates(subset=['A'])

如果你想保留重复行中的最后一项而不是第一项，可以使用 keep 参数：




df_unique = df.drop_duplicates(keep='last')

keep 参数的默认值是 first，意味着重复行中的第一项会被保留并删除。如果设置为 last，则会保留最后一项并删除其他重复项。如果设置为 False，所有的重复行都会被删除。

python:删掉重复行之drop_duplicates（）用法

评论已关闭

推荐阅读