Numpy的一个函数:np.lib.stride_tricks.as_strided()
这个函数可以高效地切分一个数组为不同的shape块。可以参考官方文档或者这篇写得很好的博客。
描述:
numpy.lib.stride_tricks.as_strided(x, shape=None, strides=None, subok=False, writeable=True)
其中:x为输入数组;
shape为目标形状;
strides 需要一个例子来理解:
a = np.arange(9, dtype=np.int32).reshape(3,3)
print(a)
'''
[[0 1 2]
[3 4 5]
[6 7 8]]
'''
print(a.strides)
'''
(12, 4)
'''
这里(12, 4)中的12表示在内存中a[n, 0]到a[n+1, 0]跨过多少byte,4表示在内存中a[n, 0]到a[n, 1]跨过多少byte。不同数据类型占据的内存大小不同,总的来说一个32位的类型需要4byte,64位的类型需要8byte。 可以参考这里,我整理成下面的表格。
数值 \ 数值类型 (单位:Byte) | int32 | int64 | float32 | float64 |
---|---|---|---|---|
[] | 96 | 96 | 96 | 96 |
[1] | 100 | 104 | 100 | 104 |
[5] | 116 | 136 | 116 | 136 |
这个表格的意思就是,一个空的数组[]就占用内存96byte,因为它存放了关于数组大小等信息。
只有一个32位整数的数组[1]占用内存100byte,减去[]占用的96byte,1就占用4byte。
同理对于64整数的数组[1],一个元素占用8byte。
上面的例子中,使用nbytes和itemsize可以直接查看元素占据的内存。
# 查看数组a所有元素占用内存大小,单位byte
a.nbytes
"""
36
"""
# 查看数组a每个元素占用内存大小,单位byte
a.itemsize
"""
4
"""
如果我想将其切分为一个(3, 3, 3)矩阵,我需要先padding其为
[[0 0 0]
[0 1 2]
[3 4 5]
[6 7 8]
[0 0 0]]
结果如下:
[[[0 0 0]
[0 1 2]
[3 4 5]]
[[0 1 2]
[3 4 5]
[6 7 8]]
[[3 4 5]
[6 7 8]
[0 0 0]]]
需要设定的strides为(36, 12, 4). 第三维最小的维度考虑最小单元内两个相邻元素的跨度,0->1, 3->4, 6->7等都是4byte;第二维度考虑两行之间的跨度,如[0 1 2]->[3 4 5]中首元素的跨度为 3 ∗ 4 3*4 3∗4 byte。这里的最高维跨度和第二维跨度一样,如[[0 0 0] [0 1 2] [3 4 5]]-> [[0 1 2] [3 4 5] [6 7 8]]首元素跨度在原数组中只跨越了[0 0 0]三个元素,所以跨度也是 3 ∗ 4 3*4 3∗4 byte。