首页 > redis > redis中分析key大小的几种方法
2019
04-13

redis中分析key大小的几种方法

背景


当redis被用作缓存时,有时我们希望了解key的大小分布,或者想知道哪些key占的空间比较大。本文提供了几种方法。

一. bigKeys

这是redis-cli自带的一个命令。对整个redis进行扫描,寻找较大的key。例:

redis-cli -h localhost -p 6379 -a password --bigkeys

输出:

# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Biggest hash   found so far 'hash_stock_daily_first_day_sz300485' with 12 fields
[00.23%] Biggest zset   found so far 'zset_all_click_show_user_ids_20200724' with 1 members
[00.45%] Biggest string found so far 'history_yesterday_limit_up_data_cache' with 17557 bytes
[00.68%] Biggest zset   found so far 'user_history_35' with 5 members
[01.13%] Biggest hash   found so far 'hash_user_info_uid_335149' with 44 fields
[05.04%] Biggest zset   found so far 'zset_all_click_show_user_ids_20200408' with 6 members
[06.87%] Biggest zset   found so far 'zset_all_click_show_user_ids_20200407' with 8 members
[08.50%] Biggest zset   found so far 'zset_all_click_show_info_20200709' with 12 members
[09.62%] Biggest zset   found so far 'zset_all_click_show_info_20200729' with 14 members
[16.31%] Biggest list   found so far 'FirstChargeReward' with 203 items
[20.49%] Biggest zset   found so far 'zset_view_num_detail_live_msg' with 491 members
[45.07%] Biggest zset   found so far 'zset_view_num_detail_user_msg' with 635 members
[47.67%] Biggest string found so far 'trade_info_stock' with 503472 bytes
[53.75%] Biggest string found so far 'trade_info_' with 1012114 bytes
[59.72%] Biggest zset   found so far 'zset_view_num_live_msg' with 3337 members
[79.87%] Biggest set    found so far 'set_stock_now_all_code' with 4051 members

-------- summary -------

Sampled 4426 keys in the keyspace!
Total key length in bytes is 152611 (avg len 34.48)

Biggest   list found 'FirstChargeReward' has 203 items
Biggest   hash found 'hash_user_info_uid_335149' has 44 fields
Biggest string found 'trade_info_' has 1012114 bytes
Biggest    set found 'set_stock_now_all_code' has 4051 members
Biggest   zset found 'zset_view_num_live_msg' has 3337 members

1 lists with 203 items (00.02% of keys, avg size 203.00)
4065 hashs with 49420 fields (91.84% of keys, avg size 12.16)
74 strings with 1539888 bytes (01.67% of keys, avg size 20809.30)
0 streams with 0 entries (00.00% of keys, avg size 0.00)
1 sets with 4051 members (00.02% of keys, avg size 4051.00)
285 zsets with 7761 members (06.44% of keys, avg size 27.23)

说明:

  1. 该命令使用scan方式对key进行统计,所以使用时无需担心对redis造成阻塞。

  2. 输出大概分为两部分,summary之上的部分,只是显示了扫描的过程。summary部分给出了每种数据结构中最大的Key。

  3. 统计出的最大key只有string类型是以字节长度为衡量标准的。list,set,zset等都是以元素个数作为衡量标准,不能说明其占的内存就一定多。所以,如果你的Key主要以string类型存在,这种方法就比较适合。

更多关于bigkeys的说明可以参考这里

二. debug object key

redis的命令,可以查看某个key序列化后的长度。

连接上redis后执行如下命令
localhost:6379> debug object myhash
Value at:0x7f005c6920a0 refcount:1 encoding:ziplist serializedlength:36 lru:3341677 lru_seconds_idle:2123456


关于输出的项的说明:

  • Value at:key的内存地址

  • refcount:引用次数

  • encoding:编码类型

  • serializedlength:序列化长度

  • lru_seconds_idle:空闲时间
    关于refcount, encoding, lru_seconds_idle的更详细解释可以参考这里

几个需要注意的问题

  • serializedlength是key序列化后的长度(redis在将key保存为rdb文件时使用了该算法),并不是key在内存中的真正长度。这就像一个数组在json_encode后的长度与其在内存中的真正长度并不相同。不过,它侧面反应了一个key的长度,可以用于比较两个key的大小。

  • serializedlength会对字串做一些可能的压缩。如果有些字串的压缩比特别高,那么在比较时会出现问题。比如下列:


localhost:6379> set str1 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
OK
localhost:6379> set str2 abcdefghijklmnopqrstuvwxyz1234
OK
localhost:6379> debug object str1
Value at:0x7f007c035b80 refcount:1 encoding:embstr serializedlength:12 lru:3342615 lru_seconds_idle:13
b.redis:1959> debug object str2
Value at:0x7f00654df400 refcount:1 encoding:embstr serializedlength:31 lru:3342622 lru_seconds_idle:712345678


两个字串的实际长度都是30, 但str1的serializedlength为12, str2的为31。

  • redis的官方文档不是特别建议在客户端使用该命令,可能因为计算serializedlength的代价相对高。所以如果要统计的key比较多,就不适合这种方法。

三. redis rdb tools

这是一个redis rdb file的分析工具,可以根据rdb file生成内存报告。

3.1 安装

需要python2.4以上版本和pip。

pip install rdbtools

3.2 生成内存报告

首先我们需要有一份rdb文件,如果你在配置中开启了rdb,那么redis会自动生成rdb文件。如果没有,可以手动执行bgsave。如果是线上机器,执行时要考虑机器负载等问题。拿到rdb文件后,我们就可以生成内存报告了。

rdb -c memory /data/redis/dump.rdb 

database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
0,hash,hash_stock_daily_first_day_sz300485,281,ziplist,12,10,2020-08-16T01:26:11
.456000
0,hash,hash_stock_daily_first_day_sz300070,287,ziplist,12,10,2020-08-16T01:26:11
.922000
0,hash,hash_stock_daily_first_day_sh600665,286,ziplist,12,10,2020-08-16T01:26:04
.694000
0,hash,hash_stock_daily_first_day_sz002107,292,ziplist,12,10,2020-08-16T01:26:10
.744000


输出了db,数据类型,key, 大小, 编码,元素数量,最大元素长度,过期时间 等多列信息。

至于分析数据,你可以用shell,也可以保存成csv用excel排序,或者干脆存到db里,想怎么排怎么排。

如果只要知道最大的N个key, 可以使用-l选项。例:

rdb -c memory -l 10 /data/redis/dump.rdb
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
4,hash,stock_daily:all_stock_thirty_days_data,11504108,hashtable,4050,2732,2020-08-05T16:00:28.877000
0,sortedset,zset_trait_get_in_after_cache,40300,skiplist,165,607,
0,sortedset,zset_view_num_detail_live_msg,44340,skiplist,491,8,
6,sortedset,message:hot_contents_data_by_share_num,44548,skiplist,350,27,
0,sortedset,zset_view_num_detail_user_msg,61540,skiplist,636,8,
0,sortedset,zset_view_num_user_msg,136780,skiplist,1444,8,
0,set,set_stock_now_all_code,211380,hashtable,4051,8,2020-08-05T03:26:01.998000
0,sortedset,zset_view_num_live_msg,307868,skiplist,3337,8,
0,string,trade_info_stock,524384,string,503472,503472,2020-08-05T03:46:04.092000
0,string,trade_info_,1048664,string,1012114,1012114,2020-08-05T03:46:04.175000

3.3 查看单个key

如果我们只需要查询单个key所使用的内存可以不必依赖rdb file, 使用redis-memory-for-key命令即可。

redis-memory-for-key 127.0.0.1 -p 6379 -a mypassword key_name
Key                             key_name
Bytes                           1048632
Type                            string


返回大小单位是:Bytes  除以1000000就是多少Mb了,大家也可以通过下面这个链接自己转换想要的单位


https://www.bejson.com/convert/filesize/


3.4 更多

  • 工具得出的内存值为近似值,这点可以参看作者的说明。“Why doesn’t reported memory match actual memory used?”

  • 工具通过分析rdb file中的key及value,反算出该kv在内存中的大小。计算时充分考虑了数据类型的影响,key本身长度的影响,内存分配等多种因素。虽然得出的大小不是真实值,但用于key大小的比较是完全可以的。

  • rdb的功能不仅于此,它还可以将kv导成json格式,也可以按正则表达式只导出部分key,可以查看git上的帮助文档

四. 总结

  • 如果想粗略的看下最大key, 可以使用bigKeys。

  • 如果查询的key不多,key的压缩比又没有明显差异,可以使用debug object key。

  • 如果不介意安装个工具,那么redis rdb tools似乎是最佳选择。


本文》有 0 条评论

留下一个回复