“분석”은 기술 분야는 물론 주요 비즈니스 분야에서도 반복적으로 들리고, 수많은 비즈니스 대화 상황에서 자주 언급됩니다.
하지만 분석의 의미는 무엇이고, 귀사와 같은 기업에는 어떻게 도움이 될까요?
분석의 의미와 용도에 대한 공통의 이해를 다지는 것은 오늘날 비즈니스 성공에 매우 중요합니다.
분석을 통해 조직은 끊임없는 개선이 요구되는 시대에 선제적 운영 모드로 전환할 수 있습니다.
개념
앞서 사용 가능한 데이터 출처의 유형을 기준으로 장소, 이유, 개념을 살펴보았으며, 이제 몇 가지 분석 개념을 소개하겠습니다.
이러한 개념을 자유자재로 구사하면 견고한 클라우드 규모의
분석 기능 인프라를 구축할 수 있는 올바른 사고 방식을 갖게 됩니다.
측정값 및 차원
데이터를 수집한 후에는 그 데이터를 구성해야 합니다. 데이터를 트랜잭션하기 쉬운 형식으로 두어도 되지만, 수집된 데이터는 크게 매출액이나 페이지 조회수 등 추적 가능한 숫자 데이터 또는 회계 분기, 제품 분류, 고객 등이 포함된 범주의 두 가지로 나뉩니다.
분석 분야에서는 이 숫자 데이터 포인트를 측정값이라고 하고, 범주를 차원이라고 합니다. 그러나 어휘는 그다지 중요하지 않습니다. 요즘에는 이 두 가지 유형의 데이터를 구분할 필요가 없기 때문입니다. 단, 측정값과 차원을 서로 다른 테이블에 저장할 수 있다면 기존의 데이터 웨어하우스 설계와 더 비슷하게 만들 수 있습니다. (데이터 웨어하우스에 대해서는 5장 구성요소에서 설명)
집계 접근 방식
데이터의 구조 너머에는 데이터 집계 방법이라는 문제가 있습니다. 일부 분석 기능 시스템에서는 최고의 성능을 발휘하기 위해 집계(예: 고객, 제품 및 일정 날짜의 조합별 총 매출)를 미리 계산합니다. 그러나 다른 분석 기능 시스템에서는 쿼리가 발행될 때 이를 계산합니다.
데이터의 구조 너머에는 데이터 집계 방법이라는 문제가 있습니다.
후자의 접근 방식은 느릴 수 있지만 사전 계산을 업데이트할 필요가 없으므로 분석 시스템이 더 애자일하게 작동합니다. 그 외에도 데이터를 저장하여 필요 시 데이터를 보다 빠르게 집계할 수 있는 방법이 있습니다. 예를 들어 열 형식 스토리지는 각 열의 모든 값을 분리하므로 각 행의 다른 열 값을 건너뛸 필요가 없어 집계 프로세스가 훨씬 더 효율적입니다. 메모리에 더 많은 데이터를 넣고 훨씬 더 효율적으로 집계할 수 있는 데이터 압축 분할도 있습니다.
병렬 처리 및 수평 확장 아키텍처
온디맨드 집계 속도를 높이는 데 사용되는 또 다른 기술은 분산 컴퓨팅 아키텍처로, 여러 컴퓨터 서버가 “클러스터”로 함께 번들로 제공됩니다. 이 접근 방식을 사용하면 데이터를 쿼리하고 집계할 때 클러스터의 각 서버에서 작업의 일부가 할당되고 모든 서버가 쿼리의 구성 부분을 동시에 수행합니다.
이 분할 정복 접근 방식은 쿼리 시간을 줄입니다. 또한 데이터 볼륨이 증가함에 따라 클러스터에 노드(서버)를 더 추가하여 전체 쿼리 시간을 상대적으로 일정하게 유지할 수 있습니다. 이러한 병렬 처리와 더 많은 서버를 추가하여 “수평 확장”하는 기능은 데이터 웨어하우스와 빅 데이터 시스템의 특징입니다.
좋은 분석 기능 플랫폼은 구조적, 반구조적 또는 비구조적 등의 모든 데이터를 처리할 수 있습니다.
비구조화 데이터는 어떻습니까?
구조에 대한 문제를 다시 살펴보면 자유 텍스트 및 미디어(예: 이미지 및 오디오)를 포함한 일부 데이터는 전혀 구조화되지 않았습니다. 실제로 이러한 형식의 데이터를 “비구조화” 데이터라고 합니다. CSV 파일에서도 스키마가 느껴지지만, 방금 언급한 형식의 데이터는 그렇지 않습니다. 일부 스트리밍 데이터, 특히 사물 인터넷(IoT) 디바이스의 센서에서 오는 데이터는 반구조화 데이터일 수 있습니다. 즉, 어떤 데이터는 공식적인 열 구성이고 어떤 데이터는 구조화되지 않았거나 행마다 구조가 다릅니다.
IoT 스트리밍 데이터 외에도 소셜 미디어의 많은 데이터가 이 패턴을 따를 수 있습니다. 게시물의 날짜와 시간에 대해 엄격하게 구조화된 열은 게시물의 원시 텍스트 또는 댓글 자체와 나란히 있을 수 있습니다. 좋은 분석 기능 플랫폼은 구조적, 반구조적 또는 비구조적 등의 모든 데이터를 처리할 수 있습니다.
실제 의미
클라우드 규모의 분석 기능을 최대한 활용하려면 분석 개념에 대한 이해가 필수적입니다.
데이터를 얻은 후에는 데이터를 구성하는 것이 중요합니다.
데이터의 구조는 물론이고, 데이터를 집계하는 방법에 대한 문제도 있습니다.
비구조적 및 반구조적 데이터의 실시간 인사이트는 클라우드 규모의 분석에 필수적이며 좋은 플랫폼은 모든 종류의 데이터를 수용합니다.