시중에 판매되는 데이터센터 내의 자동 제어와 모니터링 작업을 위한 툴은 비교적 새로운 상품이다. 이러한 종류의 툴 중에서 최초의 제품은 장치의 기록 보관이나 이동 및 유지보수의 관리와 같은 다양한 기능들을 제공하였다. 오늘날 이것은 단순히 서버 룸의 멋진 다이어그램을 그리고 데이터베이스를 바인딩하는 것에만 관련된 것이 아니다. 이제 현대적인 데이터센터 시스템은 실시간으로 데이터 센터의 운영과 관련된 다양한 과제를 해결할 수 있도록 도와준다. 이 글에서 우리는 이 산업 분야에서 최근 주목을 받는 문제들을 살펴보고 이를 해결하기 위한 방법을 모색할 것이다.
스케일링의 다양성
데이터 센터의 엔지니어링 인프라는 두 개의 컨트롤 루프로 구분될 수 있다. 하나는 랙 수준에서 전력의 분배와 냉각을 처리하는 기능을 하며, 다른 하나는 전체 시설 수준에서 작동하여 전력과 공조 시스템 외에도 다양한 보조적 서브시스템(소방, 액세스 제어 등의 시스템)을 다루는 기능을 한다. 대개 이러한 컨트롤 루프와 그 구성요소들은 서로 다른 독립적 운영자 팀들에 의해 운영된다.
기업이 엔지니어링 인프라 관리를 위하여 통합 솔루션을 구매하는 것을 항상 원하는 것은 아니다. 일반적으로 상업적 데이터센터는 이러한 통합적 옵션을 가지고 있지 않다. 하지만 데이터센터를 운용하는 기업의 경영진들이 비용을 절약하기를 원하여 공조장치와UPS로서 오직 분산적 시스템만 구매하는 것에 동의하는 경우는 결코 드물지 않다. 제어 회로 사이의 통신의 부족, 데이터센터 서브시스템의 서로 다른 자동화 수준, 서로 다른 장비 공급업체와 같은 문제들은 시설의 모든 부분이 조화롭게 작동하는 것을 어렵게 만들기 때문에 데이터센터의 최적화가 불가능하게 된다.
컨트롤 모드
소규모 시나리오에서 최악의 경우에는 데이터센터 서브시스템들이 전부 수동으로 제어되며 장비의 설치와 이동에 대한 정보는 마이크로소프트 엑셀을 사용하여 문서화된다. 스프레드시트를 사용하여 올바른 데이터베이스를 유지하는 것은 매우 까다로운 작업이기 때문에, 대개 이러한 문서 작업이 매우 복잡한 것은 당연한 일이다. 랙의 수량이 10자리 단위로 측정되는 경우(즉 랙의 수량이 많은 경우), 수동 계산에 수반되는 여러 문제점을 피할 수 없다. 이러한 데이터센터의 장비교체는 오직 고장이 발생할 때만 이루어지므로, 이는 사고 발생 시 간접비와 다운타임을 증가시킨다.
데이터센터 소유자에게 다운타임의 발생이 치명적인 경우, 대응적 컨트롤 모델(reactive control model)이 사용된다. 이 경우에 문제해결 절차가 조정되며 관련 문서작업은 계속 유지된다. 하지만 이러한 프로세스는 특정 데이터센터에 대한 직원의 경험과 지식을 기반으로 한다. 이 경우에 사고가 발생하면 문제를 충분히 빠른 시간 내에 제거할 수는 있지만, 고장의 원인에 대한 종합적인 분석의 기회가 부족하기 때문에 고장 예방의 측면에서는 심각한 어려움을 겪을 수 있다.
더욱 발전된 관리 모델은 항상 서비스-지향적이다. 이 모델은 시설의 모든 서브시스템을 모두 다루는 완전한 문서작업이 존재한다고 가정한다. 이것은 장비의 교체와 예방 정비에 대한 규칙과 절차를 분명하게 정의하고, 장비의 설치와 이동에 대한 철저한 기록을 유지한다. 한편으로 운영 서비스 측에서는 엔지니어링 시스템의 파라미터, 발생한 사고, 그리고 이를 해결하기 위하여 직원이 취한 조치를 기록한다.
데이터센터 관리에 대한 서비스-지향적 접근방식의 주요 특징은 선행성(proactivity)이다. 이 모델은 오류의 원인을 분석할 수 있을 뿐만 아니라 오류가 발생하기 전에 문제를 미리 예측할 수 있다. 따라서 서비스의 가용성을 빠르게 회복하기 위한 대책을 수립할 수 있다. 물론 이러한 방식은 모든 주요 데이터센터 서브시스템들을 위하여 단일화되고 자동화된 모니터링 및 파견 시스템을 도입하지 않는다면 불가능하다. 실제로 직원들의 행동은 종종 서브시스템 고장의 원인이 되곤 한다. 숙련된 전문가는 항상 부족하지만 파견 센터(dispatching center)가 자동화되고 모든 시설 정비 규칙과 조정 방식이 체계적인 형식을 갖춘다면, 대부분의 직원들이 기본적인 지식만 갖추더라도 무방할 것이다.
모니터링과 파견
대략 10여 년 전에 단일 논리 구조 안에 모든 엔지니어링 서브시스템을 통합한 DCIM(Data Center Infrastructure Management) 솔루션이 출시되었다. DCIM의 최초 버전에서는 오브젝트 설계와 계획을 작성하고 문서 작업을 유지하는 것이 가능하였으나, 이제 이러한 기능들은 크게 변경되었다. 현대적 솔루션은 여러 제조업체의 장비에 내장된 모니터링 툴과 상호작용을 할 수 있으며 추가 센서, 컨트롤러, 신호 변환기, 데이터 수집 시스템과 연결될 수 있다. 대개 수집되는 정보는 랙 수준까지 포함된 데이터센터의 모든 레벨에서의 에너지 소비량, 랙과 냉각 시스템 내부 덕트의 온도 및 습도 정보, 유체 누설에 대한 데이터이다. 이것은 소기의 목적을 달성하기 위한 최소한의 요구사항이다.
고객의 데이터센터에 DCIM이 설치되면, 고객은 모든 중요 서브시스템을 포함하며 어떤 경우에는 IT 장비까지 포함하는 통합적 모니터링 및 제어 환경을 보유하게 된다. 이것의 주요 임무는 최대 가용 자원으로부터 나오는 데이터 스트림들을 하나로 통합하는 것이다. 이러한 환경에서 정보는 실시간으로 수집되고 처리되며, 이를 통해 데이터센터의 모든 서브시스템들의 기능의 전체적인 현황을 서비스 직원에게 보여주며, 필요하다면 데이터센터의 계산 능력도 알려준다. 여기에서 우리는 DCIM의 또 다른 장점을 확인할 수 있다. 이 장점은 인간의 실수가 데이터센터 서브시스템의 퍼포먼스에 끼치는 좋지 않은 영향을 DCIM이 감소시켜 준다는 것이다.
선택의 문제
DCIM의 도입에는 여러가지 시나리오가 적용될 수 있지만, 가장 좋은 시나리오는 시설의 설계 단계에서 DCIM을 포함시키는 것이다. 또한 서로 다른 제조업체들이 만든 장비를 사용하는 기존의 단독형 서브시스템을 통합하는 방식도 있다. 데이터센터 설계 단계에서 솔루션을 선택하더라도 별다른 문제는 발생하지 않는다. 그리고 이러한 작업은 대개 필수적 하드웨어와 소프트웨어를 선정하는데 도움을 주는 시스템 통합자에 의해 이루어진다.
기존에 설치된 데이터센터의 상황은 훨씬 더 복잡하다. 이 경우에는 모든 관련 부서의 대표자들이 참여하는 작업 그룹(WG)을 소집할 필요가 있다. 이러한 작업 그룹은 모니터링 대상 인프라의 모든 파라미터와 노드의 목록을 만들고 그것을 중요성의 순서대로 배열하는 작업을 수행하기 위하여 필요하다. 그 다음에 이 작업 그룹은 데이터센터 인프라의 장비가 지원하는 통신 프로토콜과 통신 수단을 조사하고 추가적으로 어떠한 센서 또는 컨트롤러를 설치해야 하는지 판단을 내려야 한다.
이 모든 정보를 활용하면 당신은 필수적 소프트웨어 솔루션을 선정하고, 추가 장비의 목록을 작성하고, 프로젝트 예산을 정확히 계산할 수 있다. 기존 오브젝트에 DCIM을 도입하는 과정을 전부 전문가에게 아웃소싱하는 것도 매우 좋은 아이디어이다. 설계 단계에서 발생한 오류는 시스템 통합자가 제공하는 서비스의 가격보다 더 많은 비용을 발생시킨다. 초기에 DCIM 시스템은 국소적으로 적용되었지만, 이제 많은 개발자들은 이것을 하나의 서비스(SaaS, 즉 서비스형 소프트웨어)로서 제공하고 있다. 그리고 이러한 방식을 통하여 자본 비용을 크게 감소시키는 것이 가능하다.
최적화 포인트
데이터센터의 운영비 지출 구조의 주요 항목은 바로 전기 요금이다. IT 장비와 냉각 시스템을 운영하면 많은 전기 요금이 발생한다. 그러므로 에너지 소비량을 최적화하는 것은 최우선적인 과제이다. 전력 소비량은 많은 외부적 요인과 내부적 요인들에 따라 달라진다. 예를 들어 계절의 변화를 비롯한 기후 조건은 냉각 시스템의 효율에 직접적으로 영향을 미친다. 또한 계산 장비와 텔레콤 장비에 대한 전력 부하의 피크와 드롭도 효율에 영향을 미치며, 그 밖에도 여러 가지 미묘한 차이들이 효율에 영향을 미친다. 이 모든 것을 사용자가 직접 알아내는 것을 불가능하지만 DCIM 시스템을 통해 실제 운영 통계를 축적하여 그것을 분석함으로써 시설 인프라에서 문제가 있는 부분을 식별하는 것은 가능하다.
데이터센터에서 가장 중요한 지표 중 하나는 바로 PUE(Power Usage Effectiveness: 전력 사용 효율)이다. 이것은 IT 부하의 운영에 얼마나 많은 전력이 소비되며 냉각 장비나 UPS와 같은 보조 장비의 운영에 얼마나 많은 전력이 소비되는지 보여주고 배전 시스템에서의 전력 손실을 알려준다. 이 값은 총 에너지 소비량을 IT 장비의 소비량으로 나누어서 계산된다. 최근까지는 1.6 ~ 2.0 범위의 PUE factor가 적절한 것으로 간주되었다. 하지만 현재의 시장은 더욱 효율적인 데이터센터를 요구하므로, 1.1 ~ 1.2 범위의 값을 얻기 위한 시도가 시작되었다. 대부분 전력 소비량은 UPS의 출력과 PUD(power distribution unit)의 출력 부분에서 측정되며 IT 장비의 실제 전력 소비량도 측정된다.
수집된 데이터를 기반으로 데이터센터의 에너지 효율을 상당히 정확하게 알아내는 것이 가능하다. 하지만 이러한 PUE 수치에는 관련된 모든 차이점들이 반영된 것은 아니다. 이 수치는 여전히 중요하지만, 이를 통해 서버의 다운타임을 판단하거나 문제가 있는 핫 스팟을 식별하는 것은 가능하지 않다. 또한 PUE를 1에 가까운 값으로 감소시키면 대개 데이터센터의 신뢰성도 감소되곤 한다. 따라서 사고 발생과 장비의 사용수명 감소로 인해 에너지 절약의 효과가 상쇄될 수 있다.
현대적인 컨트롤 시스템은 서버, 랙, 배전 장비로부터 에너지 소비량 데이터를 수집한다. 또한 각각의 소켓을 모니터링하는 것도 가능하다. 중요한 자원의 소비에 대한 통계를 이해하기 쉬운 형식으로 표시할 수 있으며, 이로 인하여 가장 많은 에너지를 소비하는 부분을 찾아내어 에너지 비용을 최적화하는 것이 더욱 쉬워진다. 또한 수동으로 제어하는 경우에 부하가 감소되는 기간을 확인하여 전력 예비율을 30% ~ 40%가 아니라 10% ~ 15%로 유지할 수 있다. 그 뿐만 아니라 이것은 상당한 절약 효과를 제공한다.
또한 DCIM-class 솔루션은 다른 엔지니어링 서브시스템도 모니터링한다. 예를 들어 이것은 공기 흐름을 매핑하는데 도움이 되므로, 데이터센터 내에서 IT 장비 바로 다음으로 많은 전력을 사용하는 공조장치 또는 기후 조절 시스템에서 문제가 있는 부분을 찾아낼 수 있다. 또다른 중요한 장점은 심각한 상황이 발생하기 전에 문제 해결, 예방 정비, 문제점의 빠른 제거가 가능하다는 것이다. 이는 데이터센터 인프라의 신뢰성을 높일 뿐만 아니라 비용을 감소시킨다. 작은 서버 룸의 경우에 한해서는 수동 제어도 가능하지만, 서버 룸에 수십 또는 수백 개의 랙이 설치된 경우에는 DCIM의 도입이 필수적일 것이다.
업계의 전망
지금까지 우리는 엔지니어링 인프라에 대해서만 논하였다. 그 이유는 IT 인프라의 관리는 별도의 작업으로 간주되기 때문이다. 보통 이 작업은 DCIM과 관련이 없는 시스템을 사용하여 이루어진다. 상업적 데이터센터의 경우에 IT 장비의 작동은 고객 측이 책임져야 할 영역이다. 하지만 가상화(virtualization)와 컨버지드/하이퍼컨버지드 아키텍처의 개발은 점차 상황을 변화시키고 있다. 오늘날 개발자들을 개별 물리적 디바이스에서 가상 서버의 상태를 실시간으로 모니터링할 수 있게 해주는 솔루션을 개발하고 있으며, IT 벤더들은 전력 소비량과 온도를 모니터링하기 위하여 그들이 공급하는 제품에 많은 센서를 삽입하고 있다.
가상 환경에서의 효율적인 부하 관리 계획은 운영체제와 애플리케이션, 서버, 저장 시스템, 텔레콤 장비, 커뮤니케이션 채널, 그리고 전력, 냉각, 습도조절과 같은 물리적 자원을 비롯한 모든 측면을 다루어야 한다. DCIM 솔루션은 더 이상 대기업 데이터센터의 “전유물”이 아니다. 가까운 시일 내에 이 솔루션은 가상 플랫폼 및 IT 인프라 관리 시스템과 긴밀하게 통합될 것이다.
InfraSuite Manager - Data Center Infrastructure Management (DCIM)