你好，我是海纳。

上一节课，我们学习了MESI协议，我们了解到，MESI协议能够解决多核 CPU体系中，多个CPU之间缓存数据不一致的问题。但是，如果CPU严格按照MESI协议进行核间通讯和同步，核间同步就会给CPU带来性能问题。既要遵守协议，又要提升性能，这就对CPU的设计人员提出了巨大的挑战。

那严格遵守MESI协议的CPU会有什么样的性能问题呢？我们又可以怎么来解决这些问题呢？今天我们就来仔细分析一下。搞清楚了这些问题，你会对C++内存模型和Java内存模型有更加深入的理解，在分析并发问题时能够做到有的放矢。

严守MESI协议的CPU会有啥问题？

我们上节课说过，MESI代表的是Modified、Exclusive、Shared、Invalid这四种缓存状态，遵守MESI协议的CPU缓存会在这四种状态之间相互切换。这种CPU缓存之间的关系是这样的：

从上面这张图你可以看到，Cache和主内存(Memory)是直接相连的。一个CPU的所有写操作都会按照真实的执行顺序同步到主存和其他CPU的cache中。

严格遵守MESI协议的CPU设计，在它的某一个核在写一块缓存时，它需要通知所有的同伴：我要写这块缓存了，如果你们谁有这块缓存的副本，请把它置成Invalid状态。Invalid状态意味着该缓存失效，如果其他CPU再访问这一缓存区时，就会从主存中加载正确的值。

发起写请求的CPU中的缓存状态可能是Exclusive、Modified和Share，每个状态下的处理是不一样的。

如果缓存状态是Exclusive和Modified，那么CPU一个核修改缓存时不需要通知其他核，这是比较容易的。

但是在Share状态下，如果一个核想独占缓存进行修改，就需要先给所有Share状态的同伴发出Invalid消息，等所有同伴确认并回复它“Invalid acknowledgement”以后，它才能把这块缓存的状态更改为Modified，这是保持多核信息同步的必然要求。

这个过程相对于直接在核内缓存里修改缓存内容，非常漫长。这也就会导致，某个核请求独占时间比较长。

那怎么来解决这个问题呢？

写缓冲与写屏障

CPU的设计者为每个核都添加了一个名为store buffer的结构，store buffer是硬件实现的缓冲区，它的读写速度比缓存的速度更快，所有面向缓存的写操作都会先经过store buffer。

不过，由于中文材料中经常将cache和buffer都翻译成缓冲，或者缓存，很容易混淆概念，所以在这里，我想强调一下cache和buffer的区别。

cache这个词，往往意味着它所存储的信息是副本。cache中的数据即使丢失了，也可以从内存中找到原始数据（不考虑脏数据的情况），cache存在的意义是加速查找。

但是buffer更像是蓄水池，你可以理解成它是一个收作业的课代表，课代表会把所有同学的作业都收集齐以后再一次性地交到老师那里。buffer中的数据没有副本，一旦丢失就彻底丢失了。store buffer也是同样的道理，它会收集多次写操作，然后在合适的时机进行提交。

增加了store buffer以后的CPU缓存结构是这样的：

在这样的结构里，如果CPU的某个核再要对一个变量进行赋值，它就不必等到所有的同伴都确认完，而是直接把新的值放入store buffer，然后再由store buffer慢慢地去做核间同步，并且将新的值刷入到cache中去就好了。而且，每个核的store buffer都是私有的，其他核不可见。

为了让你更好理解核间同步的问题，我们现在来举个例子。我们使用两个CPU，分别叫做CPU0和CPU1，其中CPU0负责写数据，而CPU1负责读数据，我们看看在增加了store buffer这个结构以后，它们在进行核间同步时会遇到什么问题。

假如CPU0刚刚更新了变量a的值，并且将它放到了store buffer中，CPU0自己接着又要读取a的值，此时，它会在自己的store buffer中读到正确的值。

那如果在这一次修改的a值被写入cache之前，CPU0又一次对a值进行了修改呢？那也没问题，这次更新就可以直接写入store buffer。因为store buffer是CPU0私有的，修改它不涉及任何核间同步和缓存一致性问题，所以效率也得到了比较大的提升。

但用store buffer也会有一个问题，那就是它并不能保证变量写入缓存和主存的顺序，你先来看看下面这个代码：

// CPU0
void foo() {
    a = 1;
    b = 1;
}

// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

你可以看到，在这个代码块中，CPU0执行foo函数，CPU1执行bar函数。但在对变量a和b进行赋值的时候，有两种情况会导致它们的赋值顺序被打乱。

第一种情况是CPU的乱序执行。在Cache的基本原理一课中，我们已经讲过CPU为了提升运行效率和提高缓存命中率，采用了乱序执行。

第二种情况是store buffer在写入时，有可能b所对应的缓存行会先于a所对应的缓存行进入独占状态，也就是说b会先写入缓存。

这种情况完全是有可能的。你想，如果a是Share状态，b是Exclusive状态，那么尽管CPU0在执行时没有乱序，这两个变量由store buffer写入缓存时也是不能保证顺序的。

那这个时候，我们假设CPU1开始执行时，a和b所对应的缓存行都是Invalid状态。当CPU1开始执行第9行的时候，由于b所对应的缓存区域是Invalid状态，它就会向总线发出BusRd请求，那么CPU1就会先把b的最新值读到本地，完成变量b的值的更新，从而跳出第9行的循环，继续执行第10行。

这时，CPU1的a缓存区域也处于Invalid状态，它也会产生BusRd请求，但我们前面分析过，CPU0中对a的赋值可能会晚于b，所以此时CPU1在读取变量a的值时，加载的就可能是老的值，也就是0，那这个时候第10行的assert就会执行失败。

我们再举一个更极端的例子分析一下：

// CPU0
void foo() {
    a = 1;
    b = a;
}

这个例子中，b和a之间因为有数据依赖，是不可能乱序执行的，这就意味着上面我们分析的情况一是不会发生的。但由于store buffer的存在，情况二仍然可能发生，其结果就像我们上面分析的那样，CPU执行第10行时会失败。这会让人感到更加匪夷所思。

为了解决这个问题，CPU设计者就引入了内存屏障，屏障的作用是前边的读写操作未完成的情况下，后面的读写操作不能发生。这就是Arm上dmb指令的由来，它是数据内存屏障（Data Memory Barrier）的缩写。

我们还是继续沿用前面CPU0和CPU1的例子，不过这一次我加入了内存屏障：

// CPU0
void foo() {
    a = 1;
    smp_mb();
    b = 1;
}

// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

在这里，smp_mb就代表了多核体系结构上的内存屏障。由于在不同的体系结构上，指令各不相同，我们使用一个函数对它进行封装。加上这一道屏障以后，CPU会保证a和b的赋值指令不会乱序执行，同时写入cache的顺序也与程序代码保持一致。

所以说，内存屏障保证了，其他CPU能观察到CPU0按照我们期望的顺序更新变量。

总的来说，store buffer的存在是为提升写性能，放弃了缓存的顺序一致性，我们把这种现象称为弱缓存一致性。在正常的程序中，多个CPU一起操作同一个变量的情况是比较少的，所以store buffer可以大大提升程序的运行性能。但在需要核间同步的情况下，我们还是需要这种一致性的，这就需要软件工程师自己在合适的地方添加内存屏障了。

好了，到这里你可能也发现了，我们前面说的都是CPU核间同步的“写”的问题，但是核间同步还有另外一个瓶颈，也就是“读”的问题。那这个又要怎么解决呢？我们现在就来看看。

失效队列与读屏障

我们前面说过，当一个CPU向同伴发出Invalid消息的时候，它的同伴要先把自己的缓存置为Invalid，然后再发出acknowledgement。这个从“把缓存置为Invalid”到“发出acknowledgement”的过程所需要的时间也是比较长的。

而且，由于store buffer的存在提升了写入速度，那么invalid消息确认速度相比起来就慢了，这就带来了速度的不匹配，很容易导致store buffer的内容还没有及时更新到cache里，自己的容量就被撑爆了，从而失去了加速的作用。

为了解决这个问题，CPU设计者又引入了“invalid queue”，也就是失效队列这个结构。加入了这个结构后，收到Invalid消息的CPU，比如我们称它为CPU1，在收到Invalid消息时立即向CPU0发回确认消息，但这个时候CPU1并没有把自己的cache由Share置为Invalid，而是把这个失效的消息放到一个队列中，等到空闲的时候再去处理失效消息，这个队列就是invalid queue。

经过这样的改进后，CPU1响应失效消息的速度大大提升了，带有invalid queue的缓存结构是这样的：

我们还是以前面CPU0和CPU1中的例子来做说明。

假如，CPU0和CPU1的缓存中都有变量a的副本，也就是说变量a所对应的缓存行在CPU0和CPU1中都是Share状态。CPU1中没有变量b的副本，b所对应缓存在CPU0中是Exclusive状态。

当CPU0在将变量a写入缓存的时候，会产生Invalid消息，这个消息到达CPU1以后，CPU1不再立即处理它了，而是将这个消息放入invalid queue，并且立即向CPU0回复了invalid acknowledgement消息。

CPU0在得到这个确认消息以后，就可以独占该缓存了，直接将这块缓存变为Modified状态，然后把a写入。在a写入以后，foo函数中的内存屏障就可以顺利通过了，接下来就可以写入变量b的新值。由于b是Exclusive的，它的更新比较简单，你可以自己思考一下。

接下来我们再看CPU1中的操作。

当CPU1发起对b的请求时，由于b不在缓存中，所以它会向总线发出BusRd请求，总线会把CPU0缓存中的b的新值1更新到CPU1。同时，b所在的缓存行在两个CPU中都变为Share状态。

CPU1得到了b的新值以后，就可以退出第10行的while循环，然后对a的值进行判断。但是由于a的Invalid消息还在invalid queue里，没有被及时处理，CPU1还是会使用自己的Cache中的a的原来的值，也就是0，这就出错了。

你会发现，在这个过程中，虽然CPU1并没有乱序执行两条读指令，但是实际产生的效果却好像是先读到了b的值，后读到了a的值。如果是在严格遵守MESI协议的CPU中，CPU0一定要确保a的值先更新到CPU1，然后才能继续对b赋值。但是放宽了缓存一致性以后，这段代码就有问题了。

解决的方法和写屏障的思路是一样的，我们需要引入一个内存屏障，它会让CPU暂停执行，直到它处理完invalid queue中的失效消息之后，CPU才会重新开始执行，例如：

// CPU0
void foo() {
    a = 1;
    smp_mb();
    b = 1;
}

// CPU1
void bar() {
    while (b == 0) continue;
    smp_mb();
    assert(a == 1);
}

你看，这样在bar函数里增加了内存屏障以后，我们就可以保证a的新值是一定能读到的了。可见smp_mb可以同时对store buffer和invalid queue施加影响。

不过呢，你可能也会发现，在这个例子中，其实我们也不需要smp_mb有那么大的作用。我们只需要在第4行保证store buffer写入的顺序，在第11行保证invalid queue的顺序就好了。所以smp_mb相对于我们的需求来说，做的事情过多了，这也会导致不必要的性能下降。面对这种情况，CPU的设计者也进一步提供了单独的写屏障和读屏障。

读写屏障分离

分离的写屏障和读屏障的出现，是为了更加精细地控制store buffer和invalid queue的顺序。

再具体一点，写屏障的作用是让屏障前后的写操作都不能翻过屏障。也就是说，写屏障之前的写操作一定会比之后的写操作先写到缓存中。

读屏障的作用也是类似的，就是保证屏障前后的读操作都不能翻过屏障。假如屏障的前后都有缓存失效的信息，那屏障之前的失效信息一定会优先处理，也就意味着变量的新值一定会被优先更新。

这里我们讨论的都是读写屏障对store buffer和invalid queue的影响。其实，这里还隐含了一个事实，那就是对CPU乱序执行的影响：写屏障会禁止写操作的乱序。

这个要求虽然是隐含的，但仔细想一下却是显然的，理由很简单。你想，如果某个CPU在进行写操作的时候，实际的执行顺序都是乱序的话，那我们根本就无法讨论新的值什么时候传递到其他CPU。

而且，分离的读写屏障还有一个好处，就是它可以在需要使用写屏障的时候只使用写屏障，不会给读操作带来负面的影响，这种屏障也可以称为StoreStore barrier。同理，只使用读屏障也不会对写操作造成影响，这种屏障也可以称为LoadLoad barrier。例如我们前面CPU0和CPU1的例子，就可以进一步修改成这样：

// CPU0
void foo() {
    a = 1;
    smp_wmb();
    b = 1;
}

// CPU1
void bar() {
    while (b == 0) continue;
    smp_rmb();
    assert(a == 1);
}

当然，这种修改只有在区分读写屏障的体系结构里才会有作用，比如alpha结构。而在X86和Arm中是没有作用的，这是因为X86采用的TSO模型不存在缓存一致性的问题，而Arm则是采用了另一种称为单向屏障的分类方式。这种单向屏障是怎样的呢？我们也来简单分析一下。

单向屏障

单向屏障(half-way barrier)也是一种内存屏障，但它并不是以读写来区分的，而是像单行道一样，只允许单向通行，例如Arm中的stlr和ldar指令就是这样。

stlr的全称是store release register，也就是以release语义将寄存器的值写入内存；ldar的全称是load acquire register，也就是以acquire语义从内存中将值加载入寄存器。我们重点就来看看release和acquire语义。

首先是release语义。如果我们采用了带有release语义的写内存指令，那么这个屏障之前的所有读写都不能发生在这次写操作之后，相当于在这次写操作之前施加了一个内存屏障。但它并不能保证屏障之后的读写操作不会前移。简单说，它的特点是挡前不挡后。

在支持乱序执行的CPU（当前高性能多核CPU基本都支持乱序执行）中，使用release语义的写内存指令比使用全量的dmb要有更好的性能。

需要注意的是，stlr指令除了具有StoreStore的功能，它同时还有LoadStore的功能。LoadStore barrier可以解决的问题是真实场景中比较少见的，所以在这里我们就先不关心它了。对于最常用的StoreStore的问题，我们在Arm中经常使用stlr这条带有release语义的写指令来解决，尽管它的能力相比我们的诉求还是大了一些。

接着我们再来看一下与release语义相对应的acquire语义。它的作用是这个屏障之后的所有读写都不能发生在barrier之前，但它不管这个屏障之前的读写操作。简单说就是挡后不挡前。

与stlr相对称的是，它同时具备LoadLoad barrier的能力和StoreLoad barrier的能力。在实际场景中，我们使用最多的还是LoadLoad barrier，此时我们会使用ldar来代替。

总结

好了，今天我们这节课的内容就讲完了，我们简单回顾一下。

在这节课，我们讲解了在CPU的具体实现中，通过放宽MESI协议的限制来获得性能提升。具体来说，我们引入了store buffer和 invalid queue，它们采用放宽MESI协议要求的办法，提升了写缓存核间同步的速度，从而提升了程序整体的运行速度。

但在这放宽的过程中，我们也看到会不断地出现新的问题，也就是说，一个CPU的读写操作在其他CPU看来出现了乱序。甚至，即使执行写操作的CPU并没有乱序执行，但是其他CPU观察到的变量更新顺序确实是乱序的。这个时候，我们就必须加入内存屏障来解决这个问题。

最后我们也学习了读写屏障分离和单向屏障。在不同的情况下，我们需要的内存屏障是不同的。使用功能强大的内存屏障会给系统带来不必要的性能下降，为了更精细地区分不同类型的屏障，CPU的设计者们提供了分离的读写屏障(alpha)，或者是单向屏障(Arm)。

如何正确地使用内存屏障是一件很考验功底的事情，如果该加的地方没加，会带来非常严重的正确性问题。在操作系统，数据库，编译器等领域，会产生非常深远的影响，其代价甚至是完全无法接受的。而在不需要加的地方，如果你施加了比较重的屏障则可能带来性能下降，成为系统瓶颈。关于读写屏障更多的实际应用案例，你可以参考下我们华为JDK公众号发布的这篇文章。

思考题

假如以下代码是Java代码，你可以看到，代码中采用了full fence来保证缓存一致性。请阅读Java的相关API文档并思考，fullFence是否合理？如果不合理，应该使用哪个API对它进行替代呢？欢迎在留言区分享你的想法，我在留言区等你。

// CPU0
void foo() {
    a = 1;
    unsafe.fullFence();
    b = 1;
}

// CPU1
void bar() {
    while (b == 0) continue;
    unsafe.fullFence();
    assert(a == 1);
}

其实，除此之外，上面这段代码还有一种改法。我给你一个小提示，就是使用volatile关键字。我们会在第17课对volatile关键字进行讲解，如果你有兴趣也可以提前预习一下。

欢迎你把这节课分享给更多对MESI协议和内存屏障感兴趣的人。我是海纳，我们下节课见。