首页 / 科技数码 / 正文

dataframe判断重复值 

在pandas中,可以使用DataFrame的duplicated()方法来判断数据是否重复。

该方法可以接收三个参数:

1. subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

2. keep:默认为'first',也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。如果为'last',也就是如果有重复数据,则最后条出现的定义为False,后面的重复数据为True。如果为False,则所有重复的为True。

3. inplace:是直接在原来数据上修改还是保留一个副本,默认为False。

例如,如果有一个DataFrame,其中brand和style两列重复,可以使用以下代码判断重复值:

df.duplicated(subset=['brand', 'style'])

结果将显示为True或False,表示数据是否重复。

如有侵权请及时联系我们处理,转载请注明出处来自