Цитата(monagoru @ May 25 2015, 09:28)

Добрый день, помогите пожалуйста по возникшей проблеме.
Предприятие закупило довольно мощное оборудование для расчетов в hfss, стоит задача реализовать возможность на нем распередёных вычислений или постройки кластера.
Что есть в наличие: 3 сервера HP SL250s, у каждого на борту по 2 nvidia tesla, 32 ГБ ОЗУ, 2 Xeon E5
Всё это объединено через сеть, сумарно ~100 ГБ/С (Стоит свитч mellanox SX6036, 56 ГБ/С порт, в каждый сервер по два линка)
Документации нормальной по этой функциональности ansys не обнаружил. Возможно плохо искал. Поэтому стоит ряд вопросов.
1. Что выбрать, распределёные вычисления или кластер?
1. Как развернуть ansys для распределёной\кластерной работы?
2. Как оптимально настроить для полного использования железа?
3. И наверно самое простое, как организовать пользователям доступ к нему, чтобы они ничего не поломали? (Возможно есть какая либо функциональность встроеная для удалёной постановки задач на расчёт)
Спасибо!
Страницы две-три назад мы подробно разобрали оптимальные машины для расчетов в ХФСС. К сожалению, а может и к счастью, этот софт не рассчитан ни на кластеры ни на супер-компьютеры. Многопоточность реализована, но масштабируется плохо. Кластеризация пригодна только для параметризации и прогона сетки частот в точечном режиме. Да еще требует бешенных денег на лицензирование каждого расчетного ядра (потока). Графический акселератор используется только ограниченно в Transient. В частотной области и собственных модах он не испоьзуется. Кстати, солвер собственных мод вообще практически не параллелится и лучшие результаты дает на разогнанных 4-ядерных Core i7-K. (можете на ваш бюджет купить их кулек, поотколупывать термоинтерейсные крышки и ставить под мощные кулеры. Правда, с нерегистровой памятью придется потрахаться, когда дело дойдет до 64 гигов.)
Для ХФСС нужны не серверы, а оверклокерские машины (i7 Xtreme) и рабочие станции с процессорами серии Xeon E5-W, большими объемами памяти и быстрой дисковой подсистемой. Кроме того, очень хорошо, если у вас гигабитная, или более быстрая подсеть с локальным DNS/WINS (чтобы он не тупил с поиском сервера лицензий и машин для задач) и и машины, пропатченные под терминальное подключение.
"Документации нормальной по этой функциональности ansys не обнаружил."
эээ, это надо английский знать. в целом, дофига. А в общем, если вы платите за лицензию и HPC pack, вам выдают пакет с книжками, где написано как настроить на встроенном в HFSS кастрированном ANSYS RSM (меня вполне устраивает на 5 рабочих станциях на ручном управлении), на полноценном RSM для ANSYS (мультифизика), если вы не хотите стоять с плеткой, а также вариации с не-RSM HPC менеджерами Intel/Microsoft и HP, которые тоже поддерживаются, но более геморно (для тех у кого кластеры уже заточены под HPC менеджеры и нет желания переводить под родной RSM)
"И наверно самое простое, как организовать пользователям доступ к нему, чтобы они ничего не поломали?"
Для этого нужна светлая голова, понимание того, что нужно юзерам, хорошее знание Windows и настройки "заселенного настройками софта" профиля юзера "по умолчанию", либо умение настраивать политики в домене. Заранее советую определиться с такими вещами как отдельное место размещения юзерских папок, либо общей папки с проектами, потому что они могут разбухать до нескольких терабайтов; размещение папки TEMP/TMP, потому что она должна быть на том же диске что и проект для быстрого перемещения, либо на толстом рамдиске для быстрого обращения (советую обратить внимание на динамические рамдиски, типа Romex).
Вообще, при наличии лицензий на процессы и параметрику есть смысл на медленной Xeon-e5x16 core машине поднять Windows терминальный сервер с рабочим пространством для всех юзеров, на десяток-два терабайт. А задачи через RSM раскидывать на счетные машины с оверклокерскими параметрами, или по крайней мере с очень быстрыми 4-6-ядерными Xeon. Эти машины тогда вообще настраивать не нужно, кроме как задать локальный TEMP для HFSS, запускаемого удаленно от не-юзерского имени.
и еще, не забудьте оставить доверенным юзерам возможность перезагружать сервер(сервис) лицензий. Особенно в последних версиях License Manager сильно тупит, зависает и забывает "класть на место" возвращенные клиентами лицензии, после чего работа встает.
P.S. и забудьте про доменное разбиение, на которое нажимают маркетологи ANSYS - это развод, очень медленное тупиковое решение для малых рабочих станций 2000-2010 годов.
P.P.S. 32гига это довольно мало для Driven Modal, особенно при параллельном обсчете проектов с использованием кучи процессоров, особенно при работе с ферритами. 32 гига - легко поднимаются и обслуживаются на нерегистровых контроллерах i7. Новые i7 поддерживают 64, и даже 128 гигов(только на платах ASUS WS2), но настроить по таймингам и оттестировать такой объем априори нестабильной памяти очень сложно. Xeon хотя и проиграют по скорости на 20-30%, поддерживают регистровую память с ECC, логами сбоев и температурным троттлингом памяти. На 96-128 гигах это очень актуально, как показала наша практика.