加入收藏 | 设为首页 | 会员中心 | 我要投稿 银川站长网 (https://www.0951zz.com/)- 云通信、基础存储、云上网络、机器学习、视觉智能!
当前位置: 首页 > 综合聚焦 > 编程要点 > 语言 > 正文

在Python中对数据进行分组的代码是什么

发布时间:2023-10-17 11:16:46 所属栏目:语言 来源:
导读:在实际应用中,我们有时候会遇到“Python中如何对数据分组,代码是什么”这样的问题,我们该怎样来处理呢?下文给大家介绍了解决方法,希望这篇“Python中如何对数据分组,代码是什么”文章能帮

在实际应用中,我们有时候会遇到“Python中如何对数据分组,代码是什么”这样的问题,我们该怎样来处理呢?下文给大家介绍了解决方法,希望这篇“Python中如何对数据分组,代码是什么”文章能帮助大家解决问题。

假设我们有这样一种数据:

data=[

("apple",30),("apple",35),

("apple",32),("pear",60),

("pear",32),("pear",60),

("banana",102),("banana",104)

]

#我们希望变成如下格式

"""

[('apple',[30,35,32]),

('pear',[60,32,60]),

('banana',[102,104])]

"""

如果是你的话,你会怎么做呢?很容易想到的一种解决方案是构造一个字典:

data=[

("apple",30),("apple",35),

("apple",32),("pear",60),

("pear",32),("pear",60),

("banana",102),("banana",104)

]

data_dict={}

forname,countindata:

ifnamenotindata_dict:

data_dict[name]=[]

data_dict[name].append(count)

print(data_dict)

"""

{'apple':[30,35,32],

'pear':[60,32,60],

'banana':[102,104]}

"""

print(list(data_dict.items()))

"""

[('apple',[30,35,32]),

('pear',[60,32,60]),

('banana',[102,104])]

"""

这种方案完全没有问题,不过我们还可以写的更优雅一些,也就是使用字典的 setdefault 方法:

data=[

("apple",30),("apple",35),

("apple",32),("pear",60),

("pear",32),("pear",60),

("banana",102),("banana",104)

]

data_dict={}

forname,countindata:

#setdefault(k,v)含义如下

#当k不存在时,将k:v设置在字典中,并返回v

#当k存在时,直接返回k对应值

data_dict.setdefault(name,[]).append(count)

print(list(data_dict.items()))

"""

[('apple',[30,35,32]),

('pear',[60,32,60]),

('banana',[102,104])]

"""

setdefault 是一个非常方便的方法,但是使用频率却不怎么高,或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值,比如代码中的空列表 []。另外这里的初始值可以任意,如果你希望添加的时候还能实现去重效果,那么就将空列表换成空集合即可。

或者我们还可以使用 defaultdict,它位于 collections 模块中。

fromcollectionsimportdefaultdict

data=[

("apple",30),("apple",35),

("apple",32),("pear",60),

("pear",32),("pear",60),

("banana",102),("banana",104)

]

#里面接收一个callable

#当访问的k不存在时,返回callable调用之后的值

data_dict1=defaultdict(list)

forname,countindata:

data_dict1[name].append(count)

print(list(data_dict1.items()))

"""

[('apple',[30,35,32]),

('pear',[60,32,60]),

('banana',[102,104])]

"""

#也可以指定为set

data_dict2=defaultdict(set)

forname,countindata:

data_dict2[name].add(count)

print(list(data_dict2.items()))

"""

[('apple',{32,35,30}),

('pear',{32,60}),

('banana',{104,102})]

"""

总的来说,defaultdict 和字典的 setdefault 方法非常类似,我们使用 setdefault 即可。

当然啦,关于分组,还有一种特殊情况,就是词频统计。假设我们想统计可迭代对象中,每个元素出现的次数该怎么做呢?

data=["apple","apple","apple",

"pear","pear","pear",

"banana","banana"]

data_dict={}

foritemindata:

#此处不能使用setdefault,因为它是函数

#.setdefault(item,0)+=1是不符合语法规则的

ifitemnotindata_dict:

data_dict[item]=0

data_dict[item]+=1

print(data_dict)

"""

{'apple':3,'pear':3,'banana':2}

"""

#或者使用defaultdict

fromcollectionsimportdefaultdict

data_dict=defaultdict(int)

foritemindata:

data_dict[item]+=1

print(data_dict)

"""

defaultdict(<class'int'>,

{'apple':3,'pear':3,'banana':2})

"""

然而说到词频统计,我们还可以使用 collections 下的 Counter 类。

fromcollectionsimportCounter

data=["apple","apple","apple",

"pear","pear","pear",

"banana","banana"]

data_dict=Counter(data)

#直接搞定,Counter已经包含了我们之前的逻辑

print(data_dict)

"""

Counter({'apple':3,'pear':3,'banana':2})

"""

#Counter继承dict,除了支持字典操作之外

#还提供了很多其它操作,其中一个就是most_common

#用于选择出现频率最高的几个元素

print(data_dict.most_common(2))

"""

[('apple',3),('pear',3)]

"""

到此,关于“Python中如何对数据分组,代码是什么”的学习就结束了,希望能够解决大家的疑惑,另外大家动手实践也很重要,对大家加深理解和学习很有帮助。

(编辑:银川站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章