Простые пример, от чего бы я начал "копать":
1. f= x1 + y1 + x2 + y2 +... xn + yn
Как будет считать проц? В простейшем случае - по порядку, плюсик за плюсиком. Те, что с двумя АЛУ - чуть оптимальнее.
А ПЛИС может и так: f1 = x1 + y1, одновременно с этим f2 = x2 + y2 и т.д., потом тоже самое f12 = f1 + f2 по принципу пирамиды.
Очень хорошо воспринимается на примере счёта такой суммы одним студентом, например, и целой группой с заранее разбитыми слагаемыми. Сразу понимаешь прирост в скорости и повышение запросов на ресурсы и стоимость (кормить же надо группу

).
Но это примитивно.
2. Вычисление с применением последовательных итераций (метод наименьших квадратов в n-мерном пространстве, допустим, где несколько координат). Каждый этап вычисления можно реализовать на своём конвеере. Для наглядности опять на студентах:
первый студент (С1) считает первую операцию (О1), второй студент на основе его результата - вторую (О2)... Так просчитывается вся первая итерация (И1). Но когда начинает считать второй студент (С2) свою О2И1 - первому то С1 уже делать нечего и он может начинать считать О1И2 и т.д. Этакий конвеер конвееров. В отличие от процов, в этом конвеере одновременно выполняются однотипные операции (как если бы было 10-100 АЛУ). Это уже красивее, но какой-то изюминки не хватает.
3. Лично мне изюминкой видится возможность параллельного хода по нескольким ветвлением с постпроверкой условия, особенно, если условие вычисляется слижком уж долго. Параллельно идёт вычисление условия и подготовка реакций и вспомогательные вычисления для любого из случаев. И, в общем то, число ветвлений может быть достаточно велико. Опять-таки, пример со студентами - каждый пишет "бомбу" только на 1 билет, а на экзамене передаёт свой ответ - нуждающемуся

Выйгрыш по времени подготовки ответа - очевиден, воспитательную сторону дела - опускаем.