dataframe判断重复值
在pandas中,可以使用DataFrame的duplicated()方法来判断数据是否重复。
该方法可以接收三个参数:
1. subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。
2. keep:默认为'first',也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。如果为'last',也就是如果有重复数据,则最后条出现的定义为False,后面的重复数据为True。如果为False,则所有重复的为True。
3. inplace:是直接在原来数据上修改还是保留一个副本,默认为False。
例如,如果有一个DataFrame,其中brand和style两列重复,可以使用以下代码判断重复值:
df.duplicated(subset=['brand', 'style'])
结果将显示为True或False,表示数据是否重复。
如有侵权请及时联系我们处理,转载请注明出处来自
推荐文章
科技快看 网站地图广州壹创集信息科技有限公司 版权所有 粤ICP备2021122624号