C语言中的位域(位段)

发布于 2020-04-06  303 次阅读


C语言中的位域(位段)

首先我们来看一下这么一段代码

/** Corresponding to the protocol "4.10 WiFi module control device" in the flag " attr_flags" */ 
typedef struct {
  uint8_t flagLED_OnOff:1;
  uint8_t flagLED_R:1;
  uint8_t flagLED_G:1;
  uint8_t flagLED_B:1;
} attrFlags_t;

这段代码是机智云例程中一段代码,首先可以看出来这是一个结构体,可能有些人比较迷惑的是结构体成员后面的:1 .这是C语言中的一种数据结构,称为“位域”或“位段”。

这种数据结构稍微少见一点,至少我在学校实验室的时候还没接触过,第一次解除这个是在一次面试的时候,面试官问我如何指定结构体成员所占空间的大小,当时有点懵逼,后来自己查了一下资料才知道的。

以下部分内容摘抄自C语言中文网

位域是指信息在存储时,并不需要占用一个完整的字节, 而只需占几个或一个二进制位。例如在存放一个开关量时,只有0和1 两种状态, 用一位二进位即可。为了节省存储空间,并使处理简便,C语言又提供了一种叫“位域”或“位段”的数据结构。所谓“位域”是把一个字节中的二进位划分为几 个不同的区域, 并说明每个区域的位数。每个域有一个域名,允许在程序中按域名进行操作。 这样就可以把几个不同的对象用一个字节的二进制位域来表示。

在结构体定义时,我们可以指定某个成员变量所占用的二进制位数(Bit),这就是位域。

struct bs
{
    unsigned m;
    unsigned n: 4;
    unsigned char ch: 6;
};

:后面的数字用来限定成员变量占用的位数。成员 m 没有限制,根据数据类型即可推算出它占用 4 个字节(Byte)的内存。成员 n、ch 被:后面的数字限制,不能再根据数据类型计算长度,它们分别占用 4、6 位(Bit)的内存。

n、ch 的取值范围非常有限,数据稍微大些就会发生溢出,请看下面的例子:

#include <stdio.h>
int main()
{
    struct bs
    {
        unsigned m;
        unsigned n: 4;
        unsigned char ch: 6;
    } 
    a = { 0xad, 0xE, '$'};
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);
    a.m = 0xb8901c;
    a.n = 0x2d;
    a.ch = 'z';
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);
    return 0;
}

运行结果:

0xad, 0xe, $
 0xb8901c, 0xd, :

对于 n 和 ch,第一次输出的数据是完整的,第二次输出的数据是残缺的。

第一次输出时,n、ch 的值分别是 0xE、0x24('$' 对应的 ASCII 码为 0x24),换算成二进制是 1110、10 0100,都没有超出限定的位数,能够正常输出。

第二次输出时,n、ch 的值变为 0x2d、0x7a('z' 对应的 ASCII 码为 0x7a),换算成二进制分别是 10 1101、111 1010,都超出了限定的位数。超出部分被直接截去,剩下 1101、11 1010,换算成十六进制为 0xd、0x3a(0x3a 对应的字符是 :)。

C语言标准规定,位域的宽度不能超过它所依附的数据类型的长度。通俗地讲,成员变量都是有类型的,这个类型限制了成员变量的最大长度,:后面的数字不能超过这个长度。

例如上面的 bs,n 的类型是 unsigned int,长度为 4 个字节,共计 32 位,那么 n 后面的数字就不能超过 32;ch 的类型是 unsigned char,长度为 1 个字节,共计 8 位,那么 ch 后面的数字就不能超过 8。

我们可以这样认为,位域技术就是在成员变量所占用的内存中选出一部分位宽来存储数据。

C语言标准还规定,只有有限的几种数据类型可以用于位域。在 ANSI C 中,这几种数据类型是 int、signed int 和 unsigned int(int 默认就是 signed int);到了 C99,_Bool 也被支持了。

但编译器在具体实现时都进行了扩展,额外支持了 char、signed char、unsigned char 以及 enum 类型,所以上面的代码虽然不符合C语言标准,但它依然能够被编译器支持。

位域的存储

C语言标准并没有规定位域的具体存储方式,不同的编译器有不同的实现,但它们都尽量压缩存储空间。

位域的具体存储规则如下:

  • 当相邻成员的类型相同时,如果它们的位宽之和小于类型的 sizeof 大小,那么后面的成员紧邻前一个成员存储,直到不能容纳为止;如果它们的位宽之和大于类型的 sizeof 大小,那么后面的成员将从新的存储单元开始,其偏移量为类型大小的整数倍。

    以下面的位域 bs 为例:

#include <stdio.h>

int main(){
    struct bs{
        unsigned m: 6;
        unsigned n: 12;
        unsigned p: 4;
    };
    printf("%d\n", sizeof(struct bs));

    return 0;
}

运行结果:4

m、n、p 的类型都是 unsigned int,sizeof 的结果为 4 个字节(Byte),也即 32 个位(Bit)。m、n、p 的位宽之和为 6+12+4 = 22,小于 32,所以它们会挨着存储,中间没有缝隙。

如果将成员 m 的位宽改为 22,那么输出结果将会是 8,因为 22+12 = 34,大于 32,n 会从新的位置开始存储,相对 m 的偏移量是 sizeof(unsigned int),也即 4 个字节。

如果再将成员 p 的位宽也改为 22,那么输出结果将会是 12,三个成员都不会挨着存储。

  • 当相邻成员的类型不同时,不同的编译器有不同的实现方案,GCC 会压缩存储,而 VC/VS 不会。

    请看下面的位域 bs:

#include <stdio.h>
int main()
{
    struct bs
    {
        unsigned m: 12;
        unsigned char ch: 4;
        unsigned p: 4;
    };
    printf("%d\n", sizeof(struct bs));
    return 0;
}

在 GCC 下的运行结果为 4,三个成员挨着存储;在 VC/VS 下的运行结果为 12,三个成员按照各自的类型存储(与不指定位宽时的存储方式相同)。

  • 如果成员之间穿插着非位域成员,那么不会进行压缩。

例如对于下面的 bs:

struct bs{
    unsigned m: 12;
    unsigned ch;
    unsigned p: 4;
};

在各个编译器下 sizeof 的结果都是 12

通过上面的分析,我们发现位域成员往往不占用完整的字节,有时候也不处于字节的开头位置,因此使用&获取位域成员的地址是没有意义的,C语言也禁止这样做。地址是字节(Byte)的编号,而不是位(Bit)的编号。

无名位域

位域成员可以没有名称,只给出数据类型和位宽,如下所示:

struct bs{
    int m: 12;
    int  : 20;  //该位域成员不能使用
    int n: 4;
};

无名位域一般用来作填充或者调整成员位置。因为没有名称,无名位域不能使用。

上面的例子中,如果没有位宽为 20 的无名成员,m、n 将会挨着存储,sizeof(struct bs) 的结果为 4;有了这 20 位作为填充,m、n 将分开存储,sizeof(struct bs) 的结果为 8

位域定义的几点说明

对于位域的定义尚有以下几点说明:

  • 宽度为 0 的一个未命名位域强制下一位域对齐到其下一type边界,其中type是该成员的类型。例如:
struct bs {
    unsigned a:4;
    unsigned :0 ;/*空域*/
    char b:4 ;/*从下一单元开始存放*/
    unsigned c:4;
}data;
  • 位域的长度不能大于指定类型固有长度,比如说int的位域长度不能超过32,bool的位域长度不能超过8。

  • 位域可以无位域名,这时它只用来作填充或调整位置。无名的位域是不能使用的。

位域在本质上就是一种结构类型, 不过其成员是按二进位分配的。

位域的符号特性

位域的符号特性,是说位域变量的正或者负的问题。当使用有符号类型来定义位域,并且使用到了正负(有意或者无意)特性作为判断条件时,就有问题了。

#include <iostream> 
using namespace std; 
class test 
{     
    public:     
    test(int i1,int j1,int k1)    
    {         
        i = i1;         
        j = j1;         
        k = k1;     
    }     
    int i:1;     
    int j:2;     
    int k:13; }; 
    int main ()
    {     
        test t((int)1,(int)2,(int)3);     
        cout<<t.i<<" "<<t.j<<" "<<t.k;     
        return 0; 
    }

上面这个程序的输出是-1 -2 3. 和我们预想的1,2,3不同。

有符号数在机器中是以补码的形式存在的,其正负的判断有其规则。

位域是以原码的形式来进行操作的,这中间有差异,造成了上面的结果。而关于位域的正负数判断,也不是简单的首bit的0或1来决定,否则上面的结果就应该是-1 -2 -3或者1 2 3了。

位域的实现,是编译器相关的。建议是,使用位域不要使用正负这样的特性——理论上来说,应该只关注定义的那几个bit的0或者1,是无符号的。当然,像上面那条打印也没有使用正负特性。这就是无意识的过程中使用了正负特性。可以使用无符号类型来定义位域,这样不会产生正负号这样的问题。


这是一个记录个人学习笔记的博客,如果内容涉嫌侵权,请及时联系我删改。