![]() |
[10-2014] Практические шаги по повышению эффективности ЦОД
Практические шаги по повышению эффективности ЦОД М.С. КОНОНОВ, начальник Московского ИВЦ Программно-технические ресурсы ОАО «РЖД», распределенные ранее по вычислительным центрам дорог, на сегодняшний день объединены в Центрах обработки данных - Московском, Санкт-Петербургском и Екатеринбургском. При отсутствии единого подхода процесс консолидации вычислительных ресурсов в ЦОДах происходил индивидуально. Каждый центр выстраивал свою модель деятельности в соответствии с действующим штатным расписанием. В настоящее время системы АСОУП во всех ЦОДах, а в некоторых случаях и в пределах одного ЦОДа сопровождаются по-разному. Для улучшения качества предоставляемого сервиса, оптимизации затрат и повышения эффективности использования вычислительных ресурсов во всех ЦОДах необходимо унифицировать ландшафты и регламенты сопровождения АСОУП, что станет основой создания единой для всех ЦОД процессной модели эксплуатации АСОУП. Унификация подразумевает организацию единого ландшафта и создание системы сопровождения АСОУП на всех LPAR во всех ЦОДах. Сейчас завершается разработка стандарта для типовой системы АСОУП в системной и прикладной частях. Персоналом ГВЦ и ЦОД при участии специалистов ПКТБ ЦКИ и системного интегратора «Техносерв А/С» проводится актуализация существующего типового регламента сопровождения АСОУП. Предлагаемые меры и стандарты перерабатываются или создаются вновь с учетом положительного опыта консолидации АСОУП четырех дорог, использующих единую структуру и общую модель эксплуатации на основе типового регламента. В текущем году разработан и реализуется план мероприятий по унификации АСОУП. Среди основных направлений: унификация настроек системной среды, наименований и функций системных и прикладных объектов АСОУП с учетом использования в будущем технологии Parallel SYSPLEX, процедур администрирования. Помимо унификации в целях обеспечения катастрофоустойчивости ведется подготовка к следующему этапу модернизации системного ландшафта всех ЦОД - перекрестному резервированию АСОУП. В Главном вычислительном центре ОАО «РЖД» реализуется проект по построению единой модели процессов операционной деятельности, выполнение которого позволит стандартизировать задачи по администрированию программно-технических комплексов. Пересмотру подлежат функции и задачи отделов сопровождения вычислительных комплексов, системных средств и прикладного ПО. Немаловажным звеном для повышения эффективности ЦОД является построение единой системы мониторинга и управления для всей IT-инфраструктуры. Стандартизация позволит актуализировать существующий типовой регламент сопровождения и разделения зон ответственности между ЦОД и ИВЦ, который был принят в начале процесса консолидации и частично внедрен в каждом ЦОД. Московскому ЦОД поручено подготовить комплект нормативных документов для унификации системной среды и ее администрирования. Основной документ - Типовые требования именования объектов системы мониторинга АСУТП дорожного уровня, эксплуатируемых на платформе IBM System z - подписан всеми ЦОДами и утвержден в ГВЦ. Разумеется, в процессе работ возникают уточнения и корректировки к этому документу. Кроме этого, в комплект документов входят: набор стандартов по системным настройкам: версионность системных ПО, унификация функций системных томов, библиотек, объектов DB2, настроек WLM, настроек мониторинга и профилей безопасности; набор стандартов по именованию объектов: z/OS, DB2, MQ-Series, пользователей, заданий; набор регламентов администрирования: системной части, типовых задач, а также мониторинга. Некоторые стандарты уже были разработаны ранее и требуют небольших изменений. Обсуждение и уточнение специалистами ЦОДов каждого стандарта - довольно серьезная и трудоемкая работа, цель которой заключается в приведении объектов в соответствие со стандартами. Так, сопровождение системного, промежуточного и типового прикладного АСОУП будет сосредоточено в ЦОДах, за дорожными ИВЦ оставлено только ведение дорожной НСИ и сопровождение дорожной отчетности. Определено четкое разграничение прав доступа пользователей между ЦОД и ИВЦ. При этом типовые регламенты эксплуатации АСУОП будут подписаны с каждым консолидированным ИВЦ. Важной задачей является создание единой методики оценки производительности АСОУП в зависимости от выделенных вычислительных ресурсов. Такая оценка позволит более точно подходить к планированию развития центрального вычислительного комплекса в ЦОД и определению необходимости его модернизации в соответствии с сервисно-ресурсным подходом. При обсуждении стандартов и существующих регламентов выяснилось, что методики оценки нагрузок и производительности АСОУП различаются. Было предложено свести в сервисную модель системы мониторинга Tivoli исходные данные по объемам обрабатываемой информации и расчетные алгоритмы для оценки эффективности работы АСОУП. В основу предлагаемой оценки положена система параметров, показывающих эффективность работы АСОУП на конкретной дороге. Это позволит иметь оперативную оценку качества предоставляемого сервиса, а также анализировать текущие и возможные проблемы и определять «узкие места» в ходе эксплуатации. Предлагается использовать следующие методы оценки производительности АСОУП: в качестве основного критерия оценки - суммарное время обработки сообщений в DODRV по всем сообщениям относительно заданного интервала исходя из предельно допустимого времени доступности (86400 с в сутки). Суммарное время работы DODRV на интервале - время обработки всех сообщений; в качестве вспомогательного обобщенного показателя - среднее время обработки одного сообщения за интервал по всем типам сообщений; как признак ухудшения качества предоставляемого сервиса - наличие входной очереди сообщений на обработку в DODRV и, как следствие, увеличение времени ответа на входящее сообщение. Оценка производительности АСОУП на Московской дороге показала, что система обрабатывает в сутки в среднем 210 тыс. сообщений, суммарное время обработки этого массива при нормальной работе составляет около 33000 с. При суммарном времени обработки всех сообщений не более 40000 с в сутки очередей не образуется. Определены три зоны показателей качества работы АСОУП за сутки. «Зеленая зона» - при общем времени обработки до 40000 с в сутки. Очередь не превышает 500 входящих сообщений на 1-2 мин, время ответа АСОУП менее 1 мин. «Желтая зона» - при общем времени обработки сообщений от 40000 до 60000 с в сутки. При кратковременном росте очереди входящих сообщений от 500 до 1000 продолжительностью до 10 мин, время ответа АСОУП может возрасти до 3 мин. «Красная зона» - при общем времени обработки сообщений свыше 60000 с в сутки. Образуются очереди свыше 1000 входящих сообщений продолжительностью 60 мин. Время ответа системы от 20 и более минут. Как индикатор достаточности процессорных ресурсов уже сейчас можно использовать сообщение 4610 - картотечные данные по одному вагону. Это сообщение обрабатывается процессором и записывается в Систему организации файлов (СОФ) без использования DB2. По времени его обработки можно судить о достаточности процессорной квоты. При оптимальном выделении процессорных ресурсов среднее время обработки этого сообщения на суточном интервале должно находиться в пределах 0,50-0,53 с. На основе критериев длины очереди и контроля за основными системными ресурсами комплекса zSeries внедрена комплексная система мониторинга АСУГП на основе продуктов IBM Tivoli. Система автоматически формирует предупреждения и оповещения для дежурной смены, а также создает инциденты в ServiceDesk - единой системе поддержки пользователей (ЕСПП) в случае возникновения критических ситуаций. Унификация АСОУП позволит реализовать перспективные направления развития общей вычислительной архитектуры и сопровождения систем во всех ЦОДах. Она также повысит непрерывность предоставляемого сервиса за счет сокращения времени восстановления АСОУП всех ЦОД после сбоя или катастрофы (параллельное восстановление всех LPAR) и оперативность реакции на возможные сбойные ситуации путем их предвидения с помощью единой системы мониторинга. Благодаря унификации удастся оптимизировать использование вычислительных ресурсов, в том числе за счет сокращения количества отладочных LPAR до одного или нескольких (с учетом специфики дорог). Кроме того, улучшится качество приемки изменений ПО за счет привлечения к тестированию на объединенных отладочных LPAR разработчиков и организации дублирования реального потока данных (нагрузочное тестирование). Унификация также дает возможность полностью регламентировать сопровождение задач АСОУП, разработать детальную процессную модель эксплуатации, что позволит минимизировать влияние человеческого фактора на качество предоставляемого сервиса. В заключение хотелось бы отметить, что унификация ландшафта АСОУП и процессов администрирования позволит практически приступить к решению задачи перекрестного резервирования между ЦОДами. Это создаст распределенную катастрофоустойчивую архитектуру, а также повысит производительность труда персонала, занятого в эксплуатации АСОУП в ЦОДах и ИВЦ. |
Тема перенесена
|
| Часовой пояс GMT +3, время: 01:42. |
Powered by vBulletin® Version 3.8.1
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd. Перевод: zCarot