именно для оптимизации работы кеша и еейной же разгрузки конвеера такие перестановки потока исполнения и производятся - не все cpu умеют это делать - x86 for ex. умеет это только для операций ввода/вывода (inp/outp). вышеприведенный документик лучше все-таки почитать - там описаны возможные сценарии в многопроцессорных системах, коих сейчас становится все больше и больше. или см соответствующие man'ы по cpu, для x86 это будет :
IA-32 Intel Architecture Software Developer's Manual, Volume 3: System Programming Guide Chapter 7.1: Locked Atomic Operations Chapter 7.2: Memory Ordering Chapter 7.4: Serializing Instructions
AMD64 Architecture Programmer's Manual Volume 2: System Programming Chapter 7.1: Memory-Access Ordering Chapter 7.4: Buffering and Combining Memory Writes
|