'Database Design' 태그의 글 목록

관계선을 함부로 긋는 이유

Modeling 2011. 2. 24. 17:06

▶ 부서-사원 모델에 대한 단상

▶ 조회관계란 무엇인가
▶ 전달관계와 조회관계의 차이점

거의 모든 프로젝트 현장에서 위와 같은 잘못된 모델이 등장한다. 위의 부서-사원 모델에서 틀린 곳을 발견할 수 있는가? 잘못된 점을 발견하지 못했다면, 여러분도 잘못된 모델링을 하고 있을 가능성이 높다. 이 글은 부서와 사원 사이에 존재하는 관계선이 잘못되었다는 것을 이야기 하고자 한다.

어느 설계자가 논리모델링을 하고 있었다. 그가 작업중인 위의 모델을 보는 순간 기대를 했지만 역시나 실망했다. 왜냐하면 부서엔티티에서 사원엔티티로 관계선을 긋는 것을 보았기 때문이다. 부서와 사원은 가장 기본적인 엔티티 아닌가? 핵심엔티티임에도 불구하고 관계선을 마음 내키는 대로 긋고 있는 것이다. 그래서 내가 그 설계자에게 다음과 같이 질문을 하였다.

필자: 사원엔티티와 부서엔티티의 관계는 사원이 현재 소속된 부서를 의미합니까?

설계자: 네 당연히 사원의 현 소속부서를 의미합니다.

필자: 그렇다면 부서와 사원 사이에 관계선을 긋지 마시고, 그냥 부서코드속성을 추가하세요.

설계자: 왜요? 부서와 사원은 1:N 관계이므로, 당연히 그어야 되는 것 아닌가요?

설계자의 잘못이 아니다

그렇다. 당연히 그렇게 생각할 것이다. 모델링공부를 많이 한 사람일수록 반사적으로 부서와 사원 사이에 관계선을 그어 버린다. 잘못된 관행이 온 세상을 덮고 있다. 왜냐하면, 영문원서를 포함하여 거의 모든 국내의 모델링 책에 부서-사원관계를 그어버리는 잘못을 범했기 때문이다. 교과서가 잘못되어 있는데 학생이 제대로 된 사고를 할 수 있을까? 부서와 사원간에는 이런 식으로 관계를 맺으면 안 된다.

위의 모델이 잘못되었다는 것을 증명하려면 모델링에 대한 약간의 배경지식이 필요하다. 지금부터 설명되는 내용은 모델링의 기본이므로 반드시 알고 있어야 하는 것들이다.

관계의 방향

엔티티간의 관계선은 Role, Cardinality, 관계속성의null 여부, 그리고 데이터의 전달방향을 나타낸다. 물론 관계선에는 이런 개념 이외에도 중요한 개념이 더 있지만, 오늘은 모델링 책에 자주 언급되고 있지 않는 데이터의 흐름(전달)과 그 방향에 관해 논의해보자.

물은 중력의 법칙 때문에 위에서 밑으로 흐른다. 물의 흐름과 데이터의 흐름도 비슷하다. 집합끼리의 관계에 의해서 최상위 부모로부터 최하위 자식까지 데이터는 순차적으로 물 흐르듯 흘러간다. 다시 말해, 데이터의 방향은 부모로부터 자식으로 흘러가는 것이다. 이런 일이 가능한 이유는 관계속성 때문이다.

관계속성의 정의

관계선을 긋는 순간 자식엔티티에 부모의 식별자가 상속된다. ER-WIN이나 파워디자이너 등의 모델링 툴을 써본 사람이라면 관계선을 긋는 순간 자식엔티티에 부모식별자에 해당하는 속성이 생성됨을 알 것이다. 이를 관계속성이라 한다. 관계선이 데이터의 이동 통로라고 비유한다면, 관계속성은 이동된 데이터의 도착장소이다. 부모집합은 관계속성이 존재함으로써 자식에 데이터를 전달(연결)할 수 있다. 쉬운 말로 표현하면, 관계속성은 부모식별자의 데이터를 자식의 공간에 집어넣어, 두 집합간의 관계를 완성한다.

고객, 상품, 주문, 주문상품을 통하여 데이터가 어떻게 흘러가는지 살펴보자. 아래의 그림에서 FK라고 표시된 것이 관계속성이다. 각 엔티티의 상세한 속성이 더 존재하지만 편의상 몇 개씩만 나타내었다.

우리의 예상대로 고객-->주문 , 주문-->주문상품 , 상품-->주문상품으로 데이터가 흘러감을 직관적으로 알 수 있다. 모델링을 해본 사람이라면 지극히 당연하다고 생각 할 것이다. 관계속성이 존재함으로 데이터가 흘러간다는 규칙은 업무에 무관하게 적용되는 모델링의 기본 법칙이다.

관계선을 그으면 안 되는 경우

데이터가 전달되지 않을 때는 관계선을 그으면 안 된다. 관계속성이 생성되기 때문이다. 관계속성이 있다는 것은 데이터를 전달하겠다는 의미인데, 데이터가 전달되지 않는 경우에는 관계속성이 필요 없다.

"부모 식별자의 데이터가 자식으로 전달(이행)되는 경우만 관계선을 그어라."

위에서 보는 것처럼 이 글에서 언급한 관계선의 규칙은 매우 간단하다. 하지만 아주 쉽고, 당연한 규칙이라도 실무에서는 지켜지지 않는 경우가 많다. 도대체, 언제쯤 대부분의 설계자들이 모델링의 기본규칙을 지키는 날이 올까? 만약 그랬다면 이 글의 서두에서 언급한 대화는 일어나지 않을 것이다.

여기까지가 배경지식이다. 지금부터 이미 언급된 부서-사원간의 관계가 왜 잘못된 것인지 알아보자. 결론부터 이야기 하자면 위에서 언급한 관계선의 규칙에서 벗어나기 때문이다.

현 소속부서의 함정

내가 본 많은 수의 부서-사원 모델은 관계명에 “현 소속부서로서” 가 명시되어 있다. 현 소속부서로서? 현 소속부서라는 것은 논리적으로 존재할 수 없다. 현 소속부서가 존재한다면 그것은 발령의 마지막 값을 물리적으로 역정규화 한 것이다.

관계선의 검증방법

관계선은 업무규칙을 나타내기도 하지만 데이터집합의 원천을 표시하는 용도가 있다. 즉 부서와 사원 사이에 관계선을 그렸다면, 사원엔티티의 부서코드 값들은 부서엔티티로부터 온 것인가? 라고 검증해보아야 한다. 실제로 부서와 사원의 관계선을 검증해보면, 사원의 부서코드는 부서집합으로부터 온 것이 아니다.. 인사시스템의 발령에서 사원의 부서코드로 데이터가 insert 혹은 update된다. 인사시스템의 발령이 데이터의 원천이므로 부서와 사원은 아무런 관계가 없다. 따라서 관계선을 삭제해야 하며 아래와 같이 나타내야 한다.

위의 그림은 인사시스템의 모델이다. 물론 발령에는 직무코드, 직위코드와 관련된 추가적인 관계가 존재한다. 하지만 부서와 사원에 집중하기 위해 생략하였다. 위의 모델에서는 당연하게도, 부서와 사원은 관계선이 없다. 즉 현 소속부서라는 집합은 인사발령에서 사원 별로 가장 최근 값만 추출한 것이다. 그럼 인사시스템이 아닌 다른 시스템이라면 어떻게 될까? 아래의 모델을 보자.

인사시스템이 아닌 타 시스템이라면 인사시스템의 부서와 사원테이블을 1:1로 중복시켜 놓을 것이다. 관계선에 D라고 표시한 것은 추출관계를 나타낸 것이다. 부서코드, 직위코드, 직무코드는 인사시스템의-발령엔티티에서 역정규화 된 것임을 알 수 있다. 가끔 인사시스템에서 부서코드, 직위코드, 직무코드를 미리 역정규화 해놓는 경우도 있다. 미리 역정규화 해놓은 것을 타시스템으로 1:1로 Copy 해도 역정규화 되었다는 사실은 변하지 않는다. 위의 모델을 자세히 보아도 부서와 사원은 아무런 관계가 없음을 알 수 있다.

부서와 사원간의 FK는 필요 없다

부서와 사원간에 FK를 생성하려는 사람이 있다. 부서와 사원간에 FK에 의한 참조무결성은 쓸모가 없다. 데이터가 부모에서 자식으로 전달될 때, 올바른 값으로 전달(insert 혹은 update) 되었는지 체크하는 것이 참조무결성이다. 그런데 부서-사원간의 관계에서는 부모인 부서로부터 자식으로 데이터가 이행되지 않는다. 오히려 사원의 자식인 인사발령에서 데이터가 거꾸로 전달된다. 따라서 FK는 의미가 없다.

현소속부서라는 집합의 정합성을 검증하려면, 인사시스템의 발령에서 사원 별로 가장 최근 값만 추출하여 정합성을 검증해야 한다. 사원의 부서코드뿐만 아니라 직위코드, 직무코드도 마찬가지 방법으로 검증해야 한다. 실제로도 정합성 체크는 이렇게 하고 있다.

조회관계(Read Only Relationship)란 무엇인가?

조회관계란 데이터의 부모자식간의 데이터 전달이 목적이 아니라, 오직 두 집합을 연결하여 조회하려는 목적으로 탄생된 관계이다. 그래서 조회관계를 Read Only Relationship으로 부를 수 있다. 부서와 사원간의 관계 역시 역정규화에 의한 조회관계이다. 오직 사원의 자식인 인사-발령에서 현소속부서라는 데이터가 전달되므로, 부모인 부서집합에서의 전달관계는 없다. 하지만, 사원의 입장에서 현소속부서명과 부서의 위치를 알려고 하면, 부서와 사원을 연결할 수 있어야 조회가 가능하다. 즉 “특정 사원의 부서명을 조회하려면 부서와 조인하라.”는 정보가 필요하다. 따라서 조회관계라 하더라도 모델상에 어떤 식으로든 나타내어야 한다.

역정규화는 조회관계를 발생시킨다

조회관계는 역정규화를 하는 경우에 나타난다. 예를 들어 영국 프리미엄 리그를 보면, 리그와 팀을 배정해야 경기를 할 수 있다. 만약, 팀 엔티티의 속성에 리그코드가 있다면 그것 또한 역정규화에 의한 조회관계이다. 왜냐하면, 새로운 리그가 시작되기 전에, 지난 리그의 팀 성적에 따라서 각 팀들을 리그에 배정하는 작업이 존재할 것이기 때문이다. (예를 들면, 맨유는 1부 리그에 배정되었다.) 각 팀들을 리그에 배정하는 엔티티는 인사시스템의 발령에 해당한다. 물리모델단계에서 배정 엔티티의 리그코드는 역정규화 되어 팀 엔티티로 들어갈 수 있다. 하지만, 역정규화는 성능과 개발생산성을 위한 작업이므로 개념이나 논리모델에서 보다는 물리설계단계에서 나타내는 것이 적합하다.

전달관계와 조회관계의 차이

일반적으로 우리가 알고 있는 관계는 전달관계이다. 전달관계는 부모식별자의 데이터를 자식에 전달하는 역할과, 두 집합을 조인하여 조회하는 역할을 모두 수행한다. 따라서 전달관계는 조회관계의 기능을 포함한다. 전달관계와 반대로 조회관계는 오직 두 집합을 연결하여 데이터를 조회하는 목적 밖에 없다.

조회관계를 어떻게 표현할 것인가

조회관계는 관계속성으로 데이터가 전달되지 않으므로 의미가 없다고 생각 할 수도 있다. 하지만 위에서 설명 한 것처럼 “특정 사원의 부서명을 조회하려면 부서와 조인하라.”는 정보를 인식할 수 있어야 한다. 따라서 아래와 같이 나타내는 것을 권장한다.

부서와 사원 사이의 관계선에 P를 표시하여 가상의 관계임을 나타내었다. 가상관계는 관계속성을 만들지 않는다. 또한 관계명에 조회관계라는 것을 명시해주어, 데이터가 부서에서 사원으로 전달되지 않음을 나타내었다. 그리고 부서코드와, 직위코드, 직무코드는 인사시스템의 발령테이블에서 역정규화된 된 속성이라는 것을 속성의 정의란에 나타내 주어야 한다. 회색부분은 외부(External) 엔티티를 나타낸 것이다. 외부엔티티를 사용하여 데이터의 원천을 나타내주면, 개발자가 데이터를 이행할 때 쉽게 참조할 수 있다. 즉 위의 모델을 그려놓으면 “인사시스템에서 데이터가 바뀌면 내 시스템의 부서와 사원 데이터를 동기화 해야 하겠군” 하고 명확히 판단할 수 있다.

위의 모델을 그림으로써 얻을 수 있는 정보는 세 가지이며, 다음과 같다.

1. 부서와 사원간의 관계는 전달관계가 아니라 조회관계이다.

2. 부서와 사원엔티티는 인사시스템이 원천이다.

3. 부서코드와, 직위코드, 직무코드에 해당하는 데이터는 인사시스템의 발령데이터가 원천이다.

또한 위의 세가지 정보로 다음과 같이 두 가지 장점을 얻을 수 있다.

1. 차세대 프로젝트의 데이터를 이행하는 사람은 데이터의 원천이 인사시스템의 부서, 사원, 발령 모델임을 인식하므로 매핑정의서를 쉽게 작성할 수 있다.

2. 개발자는 인사시스템의 부서나 사원, 발령의 데이터가 변경되면, 인사시스템이 아닌 타시스템의 부서와 사원도 동기화 해야 한다는 사실을 쉽게 알 수 있다. 물론, 동기화 프로그램의 작성도 모델을 참조할 수 있으므로 그만 큼 쉬워진다.

하지만 현실은……

실무에서는 거의 100% 아래와 같이 모델링 한다.

위의 모델에서는 어떤 정보와 어떤 장점을 얻을 수 있나? 거의 없다. 한가지 얻을 수 있는 것은 부서집합의 부서코드 데이터가 사원에 전달된다는 거짓정보이다. 이 정보에 의해서 사원의 부서코드는 부서로부터 상속되었다는 잘못된 생각을 하는 사람이 있다. 이에 따라 불필요한 FK를 생성하는 사람도 있다. 다시 한번 말하지만 사원의 부서코드는 부서 엔티티로부터 상속된 것이 아니라 인사시스템의 발령엔티티로부터 온 것이다.

조회관계와 전달관계는 확실히 구분하기 바란다. 그렇게 하면, 모든 것이 드러나고 명확해진다.

반박의 논리

이 글을 몇몇 모델러에게 보여주었더니 반발이 있었다. 그런데 이상한 것은 대부분 반대입장만 표현하고, 반대의 적절한 이유가 없다는 것이다. 예를 들면, “내가 지금까지 이렇게 사용했어도 문제가 없었다” 혹은 “~책에 그렇게 하라고 되어있다” 가 대표적인 이유였다. 그런 것들은 이유가 될 수 없다. 반박을 하려면 이유가 있어야 한다. 이 글의 논리 중에 어느 부분이, 어떻게 잘못되었다고 지적 할 수 있는 능력이 필요하다. 그나마 이유를 댄 사람들은 아래와 같다.

전달관계로 표현해도 문제가 발생하지 않는다는 의견에 대해

그렇다. 전달관계로 표현해도 FK만 생성하지 않는다면 성능저하와 같은 문제는 발생하지 않는다. 하지만 프로젝트의 개발과정에서 여러 사람이 불편을 겪을 것이다. 조회관계의 개념을 모른다면 역정규화 되었다는 사실을 인식하기가 어렵다. 그러므로 인사시스템의 발령데이터가 변경되면, 트리거 성으로 타시스템에 동기화 해야 된다는 사실을 발견하는데 시간이 더 걸릴 것이다. 데이터를 이행하기 위한 매핑정의서를 작성할 때도 마찬가지로 어려움이 예상된다. 만약 모델러가 이런 모든 정보들을 안다고 해도 다른 사람들까지 모두 안다고 생각하면 안 된다. 모델은 정확히, 그리고 자세히 표현할수록 여러 사람이 얻는 이익이 많다.

우리회사는 발령이 없다는 의견에 대해

영세한 업체라면 발령이라는 엔티티가 없을 것이다. 인정한다. 그런 경우에는 부서-사원은 1:N로 직접적인 관계가 있으므로 관계선을 그어야 한다. 하지만 인사발령이 없는 영세한 업체라면 SI 프로젝트를 하지도 않을 것이며, 설계자나 모델러를 쓰지도 않을 것이다. 따라서 대부분의 경우 부서-사원의 현소속부서 전달관계가 존재한다면 잘못된 것이다.

우리 시스템에는 발령이 필요 없다는 의견에 대해

맞는 말이다. 인사시스템을 제외하면, 발령이라는 엔티티는 필요 없을 것이다. 하지만, 그 이유로 부서-사원간에 관계선을 긋는 것은 말이 안 된다. 발령이 필요 없다는 이유로, 존재하지도 않는 부서-사원간의 전달관계와 그에 따른 관계속성을 만든다는 것은 적절하지 않다. 사원의 부서코드는 전달관계속성이 아니라 역정규화된 추출속성이라는 엄연한 진실을 가리는 것이다.

모델링툴에서 조회관계를 표현하지 못한다는 의견에 대해

가장 그럴 듯한 반박논리다. 조회관계를 표현하는 기능이 없으므로 전달관계선을 그어야 한다는 것이다. 모델링툴 때문에 전달관계선을 긋는 것 보다는, 관계를 맺지 말고 누구나 볼 수 있도록 코멘트(Text Box)로 조회관계임을 기술하는 것이 더 나아 보인다. 어쩔 수 없이 전달관계선을 그을 수도 있다. 하지만, 개념을 알고 행동하는 것과 개념을 모르고 행동하는 것은 큰 차이가 있다. 다시 말해, 조회관계란 개념을 알고 있지만, 모델링툴에 기능이 없기 때문에 눈물을 머금고 관계선을 그은 것이라면 정당한 이유가 된다. 만약 그것이 아니라 부서-사원의 관계를 습관적으로 그은 것이거나 부서-사원의 관계가 1:N이라고 잘못 인식하고 관계를 맺었다면 옳지 않은 행동을 한 것이다.

현재 가장 대중적으로 사용하고 있는 ER-WIN이나 파워디자이너 같은 모델링툴은 조회관계를 나타낼 수 없다. 툴의 설계자가 조회관계라는 개념을 것을 모르니 당연한 것이다. 따라서 관계를 맺으면 무조건 전달관계와 전달관계속성을 만들어 버린다. 그에 따라 툴에서 제공하는 테이블 생성용 스크립트를 받아보면 예외 없이 FK를 생성해 버린다. 부모로부터 데이터가 전달되지 않으므로 참조무결성을 보장할 필요가 없는 데이터임에도 쓸데없이 FK를 생성하여 속도만 저하시킨다.

조회관계를 표현하는데 가장 유리한 모델링툴은 DA#이다. 필자가 가장 애용하는 툴이기도 하다. 이 툴에서 가상관계를 이용하면 관계속성을 만들지 않는다. 물론 가상관계가 아니라 조회관계를 표현할 수 있으면 좋겠지만, 그런 기능은 없으므로 현재로써는 가상관계로 처리하는 것이 최선이다. 위에서 그린 ERD도 DA#으로 표현한 것이다.

관계의 분류

관계는 여러 가지로 분류할 수 있다. 흔히 통용되는 관계분류의 예제는, 직접/간접 관계와 식별/비식별 관계이다. 직접관계란 1촌끼리의 관계를 의미한다. 즉 나와 아버지의 관계(1촌)이다. 관계형 데이터 모델에서는 직접관계만 표현하면 된다. 하지만 가끔 물리설계시에 SQL의 성능을 높이기 위해 할아버지가 직접 손자와 관계를 맺는 일도 있다. 이를 간접관계라고 한다. 식별관계는 부모의 식별자가 자식식별자의 일부로 상속되는 경우이다. 이와는 반대로 비식별관계는 부모의 식별자가 자식에 일반속성으로 상속된다. 이상으로 일반적인 관계의 분류방법을 알아보았다.

이 글에서 언급한 관계분류방법은 일반적으로 통용되는 분류방법과 다르다. 분류의 초점을 데이터의 전달유무에 맞추었다. 즉 전달/조회 관계로 새롭게 분류해 보았다. 직접/간접관계 분류법과 전달/조회관계 분류법은 많이 다르지만, 관계의 역정규화라는 점에서는 유사하다. 하지만, 데이터의 전달유무에서는 차이가 있다. 간접관계는 부모식별자의 데이터가 직접 자식으로 상속되는 전달관계이다. 이와는 반대로 조회관계는 부모로부터 데이터를 받지 않는다.

개념이나 논리모델에서 조회관계 표현방법
될 수 있으면, 역정규화된 관계는 개념/논리모델단계에서 나타내지 말고, 물리설계단계에서 나타내기 바란다. 물리설계단계에서는 조회관계임을 명시하거나, 간접관계임을 나타내어 관계가 역정규화 되었음을 나타낼 수 있다. '그럼 개념이나 논리에서는 어떻게 나타내야 하는가?' 라고 질문할 수 있다. 개념모델단계에서는 부서와 사원 사이의 관계를 M:N으로 나타내면 되고, 논리모델단계라면 M:N 관계를 풀어서 외부엔티티인 인사발령을 표현해주면 된다. 논리모델에서 외부엔티티를 사용하는 것은, 물리모델링시에 조회관계(역정규화)로 나타낼 것임을 예고하는 것이다. ( 2011.02.28 추가 )

결론

조회관계는 부모로부터 자식으로 데이터를 전달하지 못하고, 오직 조회를 목적으로 두 집합을 연결한다.

전달관계는 부모로부터 자식으로 데이터를 전달하고, 조회를 목적으로 두 집합을 연결도 한다.

부모로부터 자식으로 데이터가 이행되는 경우만 전달관계선을 그어야 한다.

부모로부터 자식으로 데이터의 전달이 끊기면 조회관계이다.

조회관계는 관계속성이나 FK를 생성하지 않는다.

역정규화에 의해서 조회관계가 발생된다.

부서--＜사원은 조회관계이다.

저작자표시 비영리 동일조건

'Modeling' 카테고리의 다른 글

과학과 철학의 간격 (2)	2010.12.15
3부 - 변경이력 테이블에 종료일자가 필요한가? (8)	2010.12.03
2부 - 변경이력 테이블에 종료일자가 필요한가? (10)	2010.11.24
변경이력 테이블에 종료일자가 필요한가? (30)	2010.11.17
역정규화 무엇이 문제인가? (7)	2009.12.14

Posted by extremedb

,

과학과 철학의 간격

Modeling 2010. 12. 15. 16:49

-개발 방법론 VS 모델링 방법론

최근에 어느 모델러에게 “~개발 방법론 때문에 미치겠다.”는 말을 들었다. SI 프로젝트에 참여하면 여러 가지 방법론이 등장한다. 하지만 그것들은 개발 방법론 혹은 관리방법론이기 때문에 분석과 사고, 그리고 통찰이 중요한 모델링을 수행하는 데는 오히려 방해가 되는 경우가 있다. 왜냐하면 이런 방법론들은 복잡한 건물을 세우는 방법, 건물 내부를 채우는 방법, 그리고 최소의 인력으로 최소의 시간을 들여 프로젝트를 마치는 방법에 관심이 집중되어 있기 때문이다. 이런 방법들은 프로젝트의 일정이 진행되는 입장에서 보면 관리적이며 과학적인 방법이다. 하지만 데이터 모델링에는 그런 과학적 방법이 얼마나 보탬이 될지는 미지수 이다.

데이터의 품질은 어떻게 보장되나?

많은 이들이 데이터의 품질에 목을 매고 있지만 개발 방법론에 따라 데이터 품질이 좌지우지 되는 것은 아니다. 왜냐하면 많은 경우에 데이터의 품질이란 데이터 모델의 품질에 따라 좌우된다. 그러므로 각종 개발 방법론들이 데이터 모델의 품질을 향상시키는 쪽으로 방법론이 진화되었으면 한다. 진화가 그리 어려운 것은 아니다.

진화방법 1

모델러는 일이 어떻게 진행될지 명확히 설명해야 하며, 산출물을 제대로 작성하고, 일정을 지켜야 한다. 모델러들 또한 고집이 있다. 전문가이기 때문에 개발자에게 배우지 않으려는 특징이 있다. 개발자들에게 UML을 배울 수 있다면 배워야 한다. 항상 모델러가 선생님이 되어야 하는 것이 아니다. UML과 모델링 툴의 사용법과 표기법이 다르다고 해서 그 사상이나 엔티티의 내부 구조가 달라지는 것이 아니다. 그러므로 모델러들도 특정 모델링 Tool에만 집착하면 안되며 UML로 모델링 할 수 있는 능력을 키워야 한다. 다른 Tool이 있음에도 내가 사용법을 모른다고 해서 고객이 몇 백만 원 혹은 몇 천만 원 하는 특정 Tool을 사야만 할까?

진화방법 2

반면에 단위 일정 내에서는 모델러에게 특정 방법을 강요해서는 안 된다. 즉 인정 될 수 있는 범위 내에서는 자유를 주어야 한다는 이야기이다. 왜냐하면 그들만의 방법이 따로 있기 때문이다. 화가가 그림(ERD)을 그리는데 특정 방법론을 강요할 수 있을까? 또한 장인이 작품(모델)을 만드는데 대규모 공장의 논리를 강요할 수 있을까?

강요와 허용의 차이

많은 경우에 모델러를 PL(관리자)로 생각하기 때문에 강요가 발생한다. 모델러는 PM이나 PL이 아니다. 물론 한사람이 다하는 곳도 있지만 그것은 예외이다. 그림을 그리는 방법에 대해서는 완전한 자유를 주어야 한다. 이와 반대로 구조물의 단순성 및 명료성 자체를 논하는 과정(철학적 과정)이 아니라, 복잡한 구조물을 세울 때(개발진행과정)에는 과학적 개발 방법이 꼭 필요하다. 즉 모델러에게 프로젝트의 관리 및 개발방법을 무시해도 된다는 특권을 주라는 이야기가 아니다. 다만 그들에게 좋은 그림을 그릴 수 있도록 자유로운 사고와 통찰을 허하라. 그렇게 해야만 데이터 모델이 단순해지고 명료해진다. 그리고 무엇보다 중요한 데이터의 품질이 향상된다.

이런 생각을 하는 사람은 나뿐인가? 만약 그렇다면 100년 전에 생존했던 어느 철학자가 필자의 의견을 지지했던 것처럼 보이는 이유는 무엇일까?

우리 문명은 '진보'라는 단어를 특징으로 한다. 진보는 우리 문명이 가진 특징 가운데 하나이기보다는 그것의 형태이다. 전형적으로 볼 때 그것은 쌓아 올리는 것이다. 그것은 점점 더 복잡해지는 구조물을 세우는 데 매몰되어 있다. 또 명료성 조차도 목적 자체가 아니라 이 목적을 이루기 위한 수단으로서 추구된다. 내게는 그와 반대로 명료성, 명석성이 그 자체로서 귀중하다.

나는 건물을 쌓는 데는 관심이 없고, 지을 수 있는 건물의 기초를 명료하게 보는 데에 관심이 있다.

그러니 내가 겨누는 과녁은 과학자들의 것과 같지 않으며, 나의 사고방식은 그들의 것과 다르다.

-비트겐슈타인 <철학적 언급들>의 서문 초고

저작자표시 비영리 동일조건

'Modeling' 카테고리의 다른 글

관계선을 함부로 긋는 이유 (23)	2011.02.24
3부 - 변경이력 테이블에 종료일자가 필요한가? (8)	2010.12.03
2부 - 변경이력 테이블에 종료일자가 필요한가? (10)	2010.11.24
변경이력 테이블에 종료일자가 필요한가? (30)	2010.11.17
역정규화 무엇이 문제인가? (7)	2009.12.14

Posted by extremedb

,

3부 - 변경이력 테이블에 종료일자가 필요한가?

Modeling 2010. 12. 3. 06:00

-변경이력에서 full table scan을 동반하는 대용량 배치의 성능관점
이 글을 이해하기 위해 이전 글들을 먼저 읽기 바란다.

이전 글의 요약

첫 번째 글과 두 번째 글에서 변경이력에 종료일자를 추가하는 것이 성능상 유리하다는 네 가지 주장이 사실과 다름을 증명해 보았다. 즉 시작일자만으로도 종료일자+시작일자 인덱스와 같은 성능을 발휘하며, 때에 따라서는 시작일자 인덱스가 더 빠르기까지 하다. 종료일자를 추가해야 한다는 네 가지 주장을 정리하면 다음과 같다.

1. 비교적 최근 데이터를 구할 때는 종료일자 + 시작일자가 빠르다. 그러므로 종료일자를 추가해야 한다.
2. 특정 시점의 데이터를 보기 위해서는 종료일자 + 시작일자 인덱스를 이용하여 BETWEEN을 쓰면 되므로 시작일자만 사용하는 것에 비해 빠르다.
3. max값을 구할 때 종료일자에 = '99991231' 만 주면 되므로 시작일자만 사용하는 것에 비해 빠르다.

4. SQL의 결과가 한 건이 아니라 여러 건인 경우 rownum = 1 조건을 사용할 수 없으므로 역정규화를 하여 종료일자를 추가하는 것이 성능상 유리하다.

이 네 가지 주장이 사실이 아님을 증명하였는데, 이 과정에서 독자들이 두 가지 오해를 할 수 있으므로 이를 밝히고자 한다.

첫 번째, max값을 구하기 위해 인라인뷰 내부에서 order by를 사용하고 인라인뷰 밖에서 rownum = 1을 사용할 때 결코 Sort가 발생하지 않는다. 따라서 Sort area도 소모하지 않는다. Sort를 하는 경우는 인덱스(고객번호 + 시작일자)가 존재하는 않는 경우뿐이다. 즉 아래의 SQL은 인덱스를 사용하므로 추가적인 Sort를 발생시키지 않는다. 다만 인덱스를 Drop하는 실수나 장애상황에서 답이 틀려지지 않게 조치된 것뿐이다.

SELECT *

FROM (SELECT /*+ INDEX_DESC(a 인덱스명) */ *

FROM test1 a

WHERE cust_no = 5

ORDER BY a.start_dt DESC)

WHERE ROWNUM = 1 ;

두 번째, "SQL의 결과가 여러 건일 때(주장 4번의 반박에 해당함) 테이블을 중복해서 사용해야 하므로 불리하다. 또한 이력테이블을 두 번 Scan하지 않으려면 type을 써야 하는데 이는 불편하다." 라는 두 가지 이유를 들어 사용할 수 없다고 주장하였다. (이메일로 의견을 받았음) 하지만 이 또한 인덱스가 있다면 테이블을 두 번 Scan 하지 않는다. 아래의 SQL을 보라.

SELECT /*+ use_nl(a b c d) */ a.svc_no, a.cust_no, a.acct_no, a.svc_date,

a.txt, b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM (SELECT a.*,

(SELECT b.rowid||c.rowid||d.rowid as rid

FROM ( SELECT * FROM svc_hist b ORDER BY start_dt DESC) b,

( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d

WHERE b.svc_no = a.svc_no

AND c.cust_no = a.cust_no

AND d.acct_no = a.acct_no

AND b.start_dt <= a.svc_date

AND c.start_dt <= a.svc_date

AND d.start_dt <= a.svc_date

AND ROWNUM = 1) AS rid

FROM svc a

WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1 ) a,

svc_hist b, cust_hist C, acct_hist D

WHERE SUBSTR(A.RID, 1, LENGTH(A.RID)/3) = B.ROWID

AND SUBSTR(A.RID, LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = C.ROWID

AND SUBSTR(A.RID, 2*LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = D.ROWID ;

--------------------------------------------------------------------------------------------------

--------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 200 |00:00:00.03 | 1998 |

| 1 | NESTED LOOPS | | 1 | 200 |00:00:00.03 | 1998 |

|* 2 | COUNT STOPKEY | | 200 | 200 |00:00:00.01 | 1403 |

| 3 | NESTED LOOPS | | 200 | 200 |00:00:00.01 | 1403 |

| 4 | NESTED LOOPS | | 200 | 200 |00:00:00.01 | 801 |

| 5 | VIEW | | 200 | 200 |00:00:00.01 | 401 |

|* 6 | INDEX RANGE SCAN DESCENDING| PK_CUST_HIST | 200 | 200 |00:00:00.01 | 401 |

| 7 | VIEW | | 200 | 200 |00:00:00.01 | 400 |

|* 8 | INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST | 200 | 200 |00:00:00.01 | 400 |

| 9 | VIEW | | 200 | 200 |00:00:00.01 | 602 |

|* 10 | INDEX RANGE SCAN DESCENDING | PK_SVC_HIST | 200 | 200 |00:00:00.01 | 602 |

| 11 | NESTED LOOPS | | 1 | 200 |00:00:00.03 | 1798 |

| 12 | NESTED LOOPS | | 1 | 200 |00:00:00.02 | 1605 |

| 13 | VIEW | | 1 | 200 |00:00:00.02 | 1410 |

|* 14 | FILTER | | 1 | 200 |00:00:00.01 | 7 |

| 15 | TABLE ACCESS BY INDEX ROWID| SVC | 1 | 200 |00:00:00.01 | 7 |

|* 16 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 200 |00:00:00.01 | 4 |

| 17 | TABLE ACCESS BY USER ROWID | CUST_HIST | 200 | 200 |00:00:00.01 | 195 |

| 18 | TABLE ACCESS BY USER ROWID | ACCT_HIST | 200 | 200 |00:00:00.01 | 193 |

| 19 | TABLE ACCESS BY USER ROWID | SVC_HIST | 200 | 200 |00:00:00.01 | 200 |

--------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - filter(ROWNUM=1)

6 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

8 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

10 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

14 - filter(SYSDATE@!-201<=SYSDATE@!-1)

16 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

실행계획을 보면 인덱스 PK_SVC_HIST와 테이블 SVC_HIST를 각각 한번씩 만 Scan한다. rowid를 사용했기 때문이다. SVC_HIST 테이블 이외의 나머지 변경이력도 마찬가지이다. 물론 스칼라 서브쿼리에 추가적인 filter 조건이 있다면 테이블을 두 번 Scan 하게 된다. 하지만 이때에도 인덱스를 추가하면 테이블을 두 번 Scan하지 않는다. 예를 들어 고객변경이력에 col1 > ‘1’ 이라는 조건이 추가되었다면 고객번호 + 시작일자 + col1 인덱스를 추가하면 된다. 단 Source 테이블의 값이 매우 자주 변경되어 이력 테이블이 insert에 의한 부하가 심하다면 새로운 인덱스를 추가하는 것은 부담이 될 것이다. 그럴 때는 Type을 사용하면 된다. Type을 사용하기 어렵다면 그냥 테이블을 두 번 Scan 해도 큰 무리가 없다.

이전 글의 예제를 본다면 테이블을 두 번씩 Scan해도 0.02초 혹은 0.03초의 성능을 보장한다. 다시 말하면 테이블을 두 번 Scan 하였음에도 한번만 Scan하는 경우(위의 예제에서 0.03초)와 비교해보면 속도차이는 미미하다. 왜냐하면 스칼라 서브쿼리에서 먼저 읽었던 테이블의 블럭은 대부분 buffer cache에 올라가 있으므로 인라인뷰 외부에서 다시 한번 읽을 때는 매우 가볍다. 이것은 "Scan한 블럭수는 차이가 나는데 Elapsed Time은 왜 동일한가요?" 에 대한 대답이다.

변경이력 테이블을 FTS(Full Table Scan) 하는 대용량 배치의 경우

인덱스를 사용할 수 없는 경우에 대해 알아보자. 천만 건에 해당하는 데이터와 그 데이터의 변경이력 1억건 중에 특정시점의 데이터를 구하려고 할 때는 인덱스를 사용할 수 없다. 이때에는 변경이력에 FTS를 사용해야 한다. 이 경우에 종료일자를 이용하여 between 조인을 사용하는 것과 시작일자 인덱스만 사용하는 것의 성능을 비교해보자. 실습을 할 사람들은 환경을 만들기 위해 아래 첨부파일을 다운 받기 바란다. 필자는 2010년 11월 28일을 사용하였으나 실습을 진행할 사람들은 일자가 달라지므로 sysdate – 4 를 사용하기 바란다. 이제 테스트를 진행해보자. 노트북에서 테스트를 진행할 때 건수가 많아 느려짐으로 테스트를 진행 할 수 없었다. 따라서 노트북이 아닌 개발 DB에서 테스트를 진행 하였다.

invalid-file

종료일자가 관리되는 테이블과 시작일자만 존재라는 테이블을 따로 생성함

테이블의 건수

svc : 2천만건 (active_yn = 1 인건은 천만 건)

svc_hist1 : 1억건

acct_hist1: 3천만건

cust_hist1: 5천만건

alter session set statistics_level = all;

CREATE TABLE TMP_HIST_END_DT NOLOGGING AS

SELECT /*+ leading(a b d c) use_hash(b d c) swap_join_inputs(d) swap_join_inputs(c) */

a.*, b.start_dt as svc_st_dt, b.txt as svc_txt, c.start_dt as acct_st_dt,

c.txt as acct_txt, d.start_dt as cust_st_dt, d.txt as cust_txt

FROM svc a, svc_hist1 b, acct_hist1 c, cust_hist1 d

WHERE a.active_yn = 1

AND b.svc_no = a.svc_no

AND d.cust_no = a.cust_no

AND c.acct_no = a.acct_no

AND TO_DATE('20101128', 'YYYYMMDD') BETWEEN b.start_dt AND b.end_dt

AND TO_DATE('20101128', 'YYYYMMDD') BETWEEN c.start_dt AND c.end_dt

AND TO_DATE('20101128', 'YYYYMMDD') BETWEEN d.start_dt AND d.end_dt ;

select * from table(dbms_xplan.display_cursor(null,null,'allstats last'));

----------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------

| 1 | LOAD AS SELECT | | 1 |00:04:42.50 | 1651K| 1540K| 519K (0)| |

|* 2 | HASH JOIN | | 9990K|00:03:51.15 | 1421K| 1540K| 1237K (0)| |

|* 3 | TABLE ACCESS FULL | ACCT_HIST1 | 500 |00:00:22.56 | 207K| 207K| | |

|* 4 | HASH JOIN | | 9990K|00:03:18.60 | 1214K| 1333K| 1250K (0)| |

|* 5 | TABLE ACCESS FULL | CUST_HIST1 | 833 |00:00:34.23 | 346K| 346K| | |

|* 6 | HASH JOIN | | 9990K|00:02:24.38 | 868K| 987K| 453M (1)| 967K|

|* 7 | TABLE ACCESS FULL| SVC | 9990K|00:00:09.99 | 149K| 149K| | |

|* 8 | TABLE ACCESS FULL| SVC_HIST1 | 19M|00:01:08.50 | 718K| 718K| | |

----------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - access("C"."ACCT_NO"="A"."ACCT_NO")

3 - filter(("C"."END_DT">=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND "C"."START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss')))

4 - access("D"."CUST_NO"="A"."CUST_NO")

5 - filter(("D"."END_DT">=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND "D"."START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss')))

6 - access("B"."SVC_NO"="A"."SVC_NO")

7 - filter("A"."ACTIVE_YN"=1)

8 - filter(("B"."START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND "B"."END_DT">=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss')))

모든 변경이력에 FTS를 사용하였지만 Between 조인에 의해서 불필요한 Sort가 발생하지 않는다. 따라서 성능도 최적이다.

이제 종료일자가 없는 테이블로 테스트를 진행해 보자.

CREATE TABLE TMP_HIST_START_DT1 NOLOGGING AS

SELECT /*+ leading(a b d c) use_hash(b d c) swap_join_inputs(d) swap_join_inputs(c) */

a.*, b.start_dt as svc_st_dt, b.txt as svc_txt, c.start_dt as acct_st_dt,

c.txt as acct_txt, d.start_dt as cust_st_dt, d.txt as cust_txt

FROM svc a,

(SELECT b.*,

ROW_NUMBER () OVER (PARTITION BY svc_no ORDER BY start_dt DESC) AS rnum

FROM svc_hist b

WHERE TO_DATE ('20101128', 'YYYYMMDD') >= start_dt ) b,

(SELECT c.*,

ROW_NUMBER () OVER (PARTITION BY acct_no ORDER BY start_dt DESC) AS rnum

FROM acct_hist c

WHERE TO_DATE ('20101128', 'YYYYMMDD') >= start_dt) c,

(SELECT d.*,

ROW_NUMBER () OVER (PARTITION BY cust_no ORDER BY start_dt DESC) AS rnum

FROM cust_hist d

WHERE TO_DATE ('20101128', 'YYYYMMDD') >= start_dt) d

WHERE a.active_yn = 1

AND b.svc_no = a.svc_no

AND d.cust_no = a.cust_no

AND c.acct_no = a.acct_no

AND b.rnum = 1

AND c.rnum = 1

AND d.rnum = 1 ;

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

| 1 | LOAD AS SELECT | | 1 |00:10:59.63 | 1450K| 1575K| 519K (0)| |

|* 2 | HASH JOIN | | 9990K|00:10:14.07 | 1221K| 1574K| 46M (0)| |

|* 3 | VIEW | | 500 |00:01:24.11 | 173K| 173K| | |

|* 4 | WINDOW SORT PUSHED RANK | | 1000 |00:01:24.11 | 173K| 173K| 97M (0)| 1024 |

|* 5 | TABLE ACCESS FULL | ACCT_HIST | 29M|00:00:30.00 | 173K| 173K| | |

|* 6 | HASH JOIN | | 9990K|00:08:39.91 | 1048K| 1401K| 47M (0)| |

|* 7 | VIEW | | 833 |00:02:19.91 | 289K| 289K| | |

|* 8 | WINDOW SORT PUSHED RANK | | 1666 |00:02:19.91 | 289K| 289K| 97M (0)| 1024 |

|* 9 | TABLE ACCESS FULL | CUST_HIST | 49M|00:00:49.98 | 289K| 289K| | |

|* 10 | HASH JOIN | | 9990K|00:05:59.96 | 758K| 1111K| 377M (1)| 947K|

|* 11 | TABLE ACCESS FULL | SVC | 9990K|00:00:19.99 | 149K| 149K| | |

|* 12 | VIEW | | 19M|00:04:16.25 | 608K| 844K| | |

|* 13 | WINDOW SORT PUSHED RANK| | 39M|00:03:56.27 | 608K| 844K| 97M (1)| 1848K|

|* 14 | TABLE ACCESS FULL | SVC_HIST | 39M|00:01:12.45 | 608K| 608K| | |

----------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - access("C"."ACCT_NO"="A"."ACCT_NO")

3 - filter("C"."RNUM"=1)

4 - filter(ROW_NUMBER() OVER ( PARTITION BY "ACCT_NO" ORDER BY INTERNAL_FUNCTION("START_DT") DESC )<=1)

5 - filter("START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

6 - access("D"."CUST_NO"="A"."CUST_NO")

7 - filter("D"."RNUM"=1)

8 - filter(ROW_NUMBER() OVER ( PARTITION BY "CUST_NO" ORDER BY INTERNAL_FUNCTION("START_DT") DESC )<=1)

9 - filter("START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

10 - access("B"."SVC_NO"="A"."SVC_NO")

11 - filter("A"."ACTIVE_YN"=1)

12 - filter("B"."RNUM"=1)

13 - filter(ROW_NUMBER() OVER ( PARTITION BY "SVC_NO" ORDER BY INTERNAL_FUNCTION("START_DT") DESC )<=1)

14 - filter("START_DT"<=TO_DATE(' 2010-11-28 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

종료일자를 사용한 between 조인이 없으므로 전체 건을 sort 해야 한다. 따라서 부하가 상당하며 성능이 두 배 이상 저하되었다. FTS를 사용한 것은 같지만 모든 변경이력 테이블(1억 8천만건)을 Sort해야 한다. (WINDOW SORT PUSHED RANK 부분참조) 이런 경우는 종료일자를 사용하여 between으로 처리하는 것이 확실히 빠르다. 물론 Parallel을 사용하여 degree를 2혹은 3정도 준다면 해결할 수 있지만 신중해야 한다. 초를 다투는 중요한 배치인 경우만 적용해야 하며, 동 시간대 CPU 사용량과 PGA 사용량을 감안해야 한다. sort_area_size나 hash_area_size를 수동으로 튜닝 하는 것 또한 마찬가지 이다. Parallel을 사용하거나 수동으로 PGA를 조절하는 것은 자원을 독점하는 것이므로 다른 배치 프로그램에 악영향을 줄 수 있다.

이제 지난 글과 이번 글에서 나타난 특징을 표로 정리해보자.

비교항목		시작일자만 관리	종료일자도 관리	사용 빈도수	중요도
정합성(데이터 품질)을 보장하는가?		우수	나쁨	N/A	매우 중요
성능관점	최근 시점의 값 조회시 성능	우수	우수	90%	중요
	중간 시점의 값 조회시 성능	우수	중간	9%
	오래된 시점의 값 조회시 성능	우수	나쁨	1%
	FTS를 동반하는 대용량 배치 성능	나쁨	우수	0.01%	보통
SQL의 복잡성		나쁨	우수	N/A	보통
추가적인 비용(노력)이 얼마나 드는가?		우수	나쁨	N/A	보통

종료일자를 사용하면 정합성을 보장하지 못한다. 성능관점에서 인덱스를 사용하는 경우(온라인 업무)는 시작일자만으로 인덱스를 사용하는 것이 유리하다. 왜냐하면 종료일자+시작일자 인덱스는 최종(max)값을 구할 때 가장 빠르지만 최종 값에서 멀어질수록 점점 성능이 떨어진다. 하지만 시작일자 인덱스는 항상 빠르다. FTS를 동반하는 대용량 배치에서는 종료일자를 사용하여 between 조인을 하면 두 배 ~ 세 배 정도 빠르다. SQL의 복잡성 측면에서는 시작일자만 관리하는 경우는 SQL이 길어지므로 종료일자를 사용하는 것이 유리하다.

역정규화하여 종료일자를 사용하려면 아래와 같은 추가적인 비용이 든다.
1. Source 테이블의 데이터가 변경되면 트리거성으로 변경이력에 Update하는 프로그램을 추가로 작성해야 한다.
2. 이때 데이터가 자주 변경되는 경우는 Update 자체의 부하도 무시할 수 없다.
3. 데이터가 틀어진 경우를 대비하여 정합성을 보정하는 프로그램을 추가로 작성해야 한다.

정합성을 보정하는 프로그램은 상당히 복잡하다. 왜냐하면 점의 중복제거뿐만 아니라 선분의 중복도 제거해야 하기 때문이다. 예를 들어 고객변경이력이라고 한다면 점(고객번호 + 시작일시)이 중복이 되어선 안되므로 Cleansing이 필요하다. 또한 선분(고객번호 + 시작일시 + 종료일시)의 중복도 해결해야 한다. 아래의 그림을 보자.

위의 경우 구간1과 구간2의 시작점은 다르므로 점의 중복은 없다. 하지만 선분이 겹치므로 구간을 3등분해야 한다. 따라서 Insert가 추가로 발생한다. 위의 그림은 하나의 경우만 나타낸 것이다. 하지만 구간2가 왼쪽 혹은 오른쪽으로 이동되어 겹치는 구간이 달라질 수 있으므로 각각의 경우에 처리하는 SQL이 달라질 수 있다.

역정규화를 했을 때 정합성 보정 프로그램은 동시성 제어(원본소스를 변경시키는 update, 변경이력에 insert, 변경이력의 종료일자에 update)를 하여 one transaction으로 관리하더라도 필요하다. 급한 경우 프로그램을 통하지 않고 직접 DB에 insert를 날릴 수 있고, 이때는 작업자가 실수 할 수 있기 때문이다. 어떠한 실수가 있더라도 정합성을 보정하는 프로그램이 있다면 데이터 품질을 유지할 수 있다.

결론: 습관적인 종료일자의 추가는 위험하다

결과적으로 표의 결과는 간발의 차이로 ‘나쁨’이 2개인 시작일자만 관리하자는 측의 승리이다. 이제부터 역정규화를 할 때는 표의 항목을 비교해보고 많은 고민을 해야 한다. 왜냐하면 역정규화의 장점보다 단점이 더 클수 있으며 데이터의 정합성(품질)은 성능이나 개발생산성과 바꿀 수 있는 성격이 아니기 때문이다.

“변경이력을 실시간으로 조회하는 온라인 프로그램이 많고 조회빈도수도 많으므로 성능이 중요하다. 따라서 종료일자를 사용해야 한다.” 라는 주장은 사실과 다르다. 오히려 이런 경우는 종료일자의 성능상 장점이 없으므로 시작일자만 사용하면 된다. 또한 변경이력을 full table scan하는 대용량 배치프로그램의 성능이 느리다고 무작정 ‘종료일자’를 추가해서는 안 된다. 그 배치프로그램이 종료일자를 사용하는 경우보다는 느려지겠지만, 속도가 목표시간 내에 들어온다면 느리다고 할 수 없다. 많은 경우에 배치프로그램은 늦은 저녁에 시작하여 다음날 새벽 6시까지 끝나면 된다.

반대로 온라인 프로그램이 아닌 대용량 배치프로그램의 성능이 매우 중요한 경우(example: 대금청구 시스템)이고 속도가 느리다면 표에 나타난 다른 항목을 희생해서라도 역정규화를 고려할 수 있다. SQL의 길이가 길어지므로 종료일자를 추가하자는 주장은 장단점을 비교하여 역정규화 할 수 있다. 예를 들어 정합성이 틀어질 위험이 있고, 역정규화에 의한 추가적인 노력(비용) 들더라도 SQL 실력이 약한 신입개발자가 과반수라면 종료일자를 고려해야 한다. 하지만 이경우에도 '아주 복잡한 정합성 보정 프로그램을 SQL 실력이 약한 신입이 개발할 수 있을까?' 라는 의문은 남는다. 쉬운 SQL을 사용하려다 보니 더욱 어려운 SQL을 만날 수 있다는 말이다.

PS

표를 만드는 동안 양측(시작일자만 관리 VS 종료일자도 관리)의 집중 견제를 받았다.

종료일자를 사용해야 한다는 측의 주장

원래는 표에 ‘우수’와 ‘나쁨’만 있었는데 ‘중간’ 이라는 것이 생겼다. 종료일자를 관리해야 한다는 측의 주장에 따라 중간시점의 조회성능은 ‘나쁨’이 아니라 ‘중간’으로 바뀌었다. 원래는 상대적으로 불리하면 ‘나쁨’ 이라 표시하고 유리하면 ‘우수’로 표시 했었다. 또한 조회빈도수를 추가했다. 조회빈도수를 추가하지 않으면 시작일자만 관리한다는 측이 유리해 보인다는 것 이었다. 또 다른 의견으로는 ‘추가적인 ‘노력(비용)이 증가하는 것’은 원래는 아래의 세 개의 항목으로 나타내었다.

1. Source가 변경되면 변경이력에 update 하는 프로그램을 추가로 작성해야 한다.

2. Source가 자주 변경된다면 그 Update가 부하가 될 수 있다.

3. 역정규화에 의한 정합성 보정 프로그램을 추가로 작성해야 한다.

이렇게 세 항목으로 구분하여 ‘우수’ 와 ‘나쁨’으로 나타내었지만 ‘노력(비용)이 증가하는 것’ 하나의 항목으로 나타내 달라고 주장했다. 세 항목이 전부 ‘나쁨’으로 표시되면 불리하게 보일 수 있으므로 하나의 항목으로 나타내자는 것 이었다. 받아들였다. 마지막 주장은 조회시점 별 성능항목 세가지를 인덱스를 사용할 때의 성능항목 하나로 바꾸고 성능의 안정성(시점 별로 성능이 좌지우지 되는지)을 추가하자는 의견이 있었으나 받아들이지 않았다. 바꾸어 보아도 성능의 안정성은 ‘나쁨’ 이 될 것이기 때문이다.

시작일자만 사용해도 된다는 측의 주장

시작일자만 관리하자는 측도 가만히 보고 있진 않았다. SQL의 복잡성 항목에 ‘나쁨’ 대신에 ‘중간’으로 바꿔달라고 했다. 이 정도면 복잡한 정도는 아니고 길이만 조금 길어진다는 것이었다. 받아들이지 않고 그냥 ‘나쁨’으로 두었다. 또한 FTS를 동반하는 대용량 배치에서 ‘나쁨’이 아니라 ‘중간’으로 하자는 주장도 만만치 않았다. 1억건 단위의 FTS와 조인 그리고 1억8천만건의 Sort가 고작 11분 걸렸는데 그것의 성능이 나쁜 것은 아니라는 것이었다. 배치가 매우 중요하여 초를 다투는 상황이라 하더라도 튜닝의 여지가 있으므로 ‘중간’으로 하자는 의견도 있었다. 이 두가지 의견은 받아들이지 않았다. 왜냐하면 일단 성능이 두 배 이상 느리고, 튜닝을 하자는 의견은 종료일자 + 시작일자의 단점인 오래된 데이터를 조회할 때에도 똑같이 튜닝으로 해결 할 수 있다. 위의 표는 튜닝을 하자는 관점이 아니라 장단점을 나타내는 관점이다. 마지막으로 주장한 것이 중요도 항목이다. 데이터 정합성(품질)은 성능이나 SQL 복잡성 보다 훨씬 중요하다는 것이었다. 이것은 받아들였다.

마지막으로 의견을 제시하신 양측 분들께 감사 드린다. 양측의 주장을 모두 조율하였지만 그래도 양측의 불만은 여전히 존재할 것이다. 어쩔 수 없는 일이다. 양측의 주장이 워낙 강하다 보니 이제는 블로그의 글을 내 논리대로 쓰지 못하는 시기가 온 것 같다.

저작자표시 비영리 동일조건

'Modeling' 카테고리의 다른 글

관계선을 함부로 긋는 이유 (23)	2011.02.24
과학과 철학의 간격 (2)	2010.12.15
2부 - 변경이력 테이블에 종료일자가 필요한가? (10)	2010.11.24
변경이력 테이블에 종료일자가 필요한가? (30)	2010.11.17
역정규화 무엇이 문제인가? (7)	2009.12.14

Posted by extremedb

,

2부 - 변경이력 테이블에 종료일자가 필요한가?

Modeling 2010. 11. 24. 00:01

-변경이력에서 여러 건을 조회 할 때의 해결방법

-변경이력 조회시 rownum의 활용

들어가기 전에
이 글을 읽기 위해서 지난번 글(변경이력 테이블에 종료일자가 필요한가?)을 먼저 읽고 오기 바란다. 그렇지 않으면 이해하기 힘들며 이 글과 어떻게 연결되는지 알 수 없다.

이전 글이 다분히 이론적이었다면 이번에는 실전적인 문제를 다룬다. 이 글에서 언급된 기법을 알지 못하면 실무에서 종료일자가 없이 시작일자만을 사용했을때 성능이 떨어질 것이다.

이 글은 종료일자의 장단점에 대해 충분한 고민후에 사용했던 사람들에 대한 공격이 아님을 일러둔다. 역정규화에 대한 위험성을 알리고, 정규형 또한 빠른 성능을 가졌다는 것을 증명함으로써 종료일자를 사용할 때는 많은 고민이 있어야 한다는 것을 주장하는 것이다.

글의시작
지난 글에서 뜨거운 토론이 있었다. 무려 댓글이 28개나 달렸으며 의견도 크게 두 가지로 갈렸다. 즉 데이터 정합성을 위해 종료일자를 자제해야 한다는 측과 성능관점에서는 장점이 워낙 크므로 종료일자를 사용해야 한다는 측의 두 가지이다. 여러 반론들도 쏟아졌다. 현실 세계의 다양하고 복잡한 SQL이 있으므로 지난 시간에 언급했던 세가지 유형만으로는 충분하지 않다는 것. 일리가 있다. 그래서 이번 시간에는 현실에서 많이 나오는 패턴에 대하여 알아보기로 하자. 즉 MAX 값 한 건이나 특정시점의 한 건을 구하는 것이 아니라 여러 건이 조회되는 패턴에 대해 알아보겠다. 지난 글에서 여러 사람들이 이야기 하는 현실적인 예제란 아래와 같았다.

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM svc a, svc_hist b, acct_hist c, cust_hist d

WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1

AND b.svc_no = a.svc_no

AND d.cust_no = a.cust_no

AND c.acct_no = a.acct_no

AND a.svc_date BETWEEN b.start_dt AND b.end_dt -- 서비스 변경이력

AND a.svc_date BETWEEN c.start_dt AND c.end_dt -- 계정 변경이력

AND a.svc_date BETWEEN d.start_dt AND d.end_dt -- 고객 변경이력

AND b.txt > ' '

AND c.txt > ' '

AND d.txt > ' ' ;

시작일자만으로 이 SQL을 빠르게 조회할 수 있니?
조인조건을 보면 특정시점이 아닌 a.svc_date로 변경이력과 between 조인을 하고 있다. 이런 스타일의 SQL에서는 시작일자 컬럼만으로는 between을 사용할 수 없으므로 느리다는 것. 그리고 SQL의 결과는 한 건이 아니라 여러 건이기 때문에 rownum = 1 조건을 사용할 수 없으므로 역정규화를 하여 종료일자를 추가하는 것이 성능상 유리하다는 의견이 있었다. 이것이 사실일까?

환경 Oracle11g R2

테스트를 위하여 object를 생성하고 통계정보를 수집한다.

CREATE TABLE CUST_HIST AS --고객이력

SELECT A.CUST_NO, B.*

FROM ( SELECT LEVEL AS CUST_NO

FROM DUAL

CONNECT BY LEVEL <= 50) A,

( SELECT SYSDATE - level AS start_dt, --시작일시

SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

'종료일자의 필요성 테스트' as txt

FROM DUAL

CONNECT BY LEVEL <= 2000) B;

ALTER TABLE CUST_HIST ADD CONSTRAINT PK_CUST_HIST PRIMARY KEY (CUST_NO, START_DT) USING INDEX;

CREATE INDEX IX_CUST_HIST_01 ON TLO.CUST_HIST (CUST_NO, END_DT, START_DT) ;

CREATE TABLE ACCT_HIST AS -- 계정이력

SELECT A.*, B.*

FROM ( SELECT LEVEL AS ACCT_NO

FROM DUAL

CONNECT BY LEVEL <= 50) A,

( SELECT SYSDATE - level AS start_dt, --시작일시

SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

'종료일자의 필요성 테스트' as txt

FROM DUAL

CONNECT BY LEVEL <= 2000) B;

ALTER TABLE ACCT_HIST ADD CONSTRAINT PK_ACCT_HIST PRIMARY KEY (ACCT_NO, START_DT) USING INDEX;

CREATE INDEX IX_ACCT_HIST_01 ON ACCT_HIST (ACCT_NO, END_DT, START_DT) ;

CREATE TABLE SVC AS --서비스

SELECT *

FROM ( SELECT LEVEL AS svc_no,

TRUNC(dbms_random.value(1,51)) AS CUST_NO,

TRUNC(dbms_random.value(1,51)) AS ACCT_NO,

SYSDATE - level + 1 - 0.5 AS SVC_DATE, --서비스 가입일시

'종료일자의 필요성 테스트' as txt

FROM DUAL CONNECT BY LEVEL <= 2000) A ;

ALTER TABLE SVC ADD CONSTRAINT PK_SVC PRIMARY KEY (SVC_NO) USING INDEX;

CREATE INDEX IX_SVC_01 ON SVC (SVC_DATE) ;

CREATE TABLE SVC_HIST AS --서비스이력

SELECT A.svc_no, B.*

FROM ( SELECT svc_no

FROM SVC) A,

( SELECT SYSDATE - level AS start_dt, --시작일시

SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

'종료일자의 필요성 테스트' as txt

FROM DUAL

CONNECT BY LEVEL <= 2000) B;

ALTER TABLE SVC_HIST ADD CONSTRAINT PK_SVC_HIST PRIMARY KEY (SVC_NO, START_DT) USING INDEX NOLOGGING;

CREATE INDEX IX_SVC_HIST_01 ON SVC_HIST (SVC_NO, END_DT, START_DT) NOLOGGING;

begin

dbms_stats.gather_table_stats(user, 'SVC_HIST', cascade => true);

dbms_stats.gather_table_stats(user, 'CUST_HIST', cascade => true);

dbms_stats.gather_table_stats(user, 'ACCT_HIST', cascade => true);

dbms_stats.gather_table_stats(user, 'SVC', cascade => true);

end;

이제 테스트를 수행해보자. 종료일자 + 시작일자 인덱스의 장점은 최근 데이터를 구할 때 효율적이다. 따라서 종료일자 + 시작일자 인덱스를 이용하여 비교적 최근 데이터 200 건을 조회해보자. 종료일자 + 시작일자 인덱스를 강제로 사용하기 위해 힌트를 사용하였다.

SELECT /*+ USE_NL(A B C D) INDEX(A IX_SVC_01) INDEX(B IX_SVC_HIST_01)
INDEX(C IX_ACCT_HIST_01) INDEX(D IX_CUST_HIST_01) */

a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM svc a, svc_hist b, acct_hist c, cust_hist d

WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1

AND b.svc_no = a.svc_no

AND d.cust_no = a.cust_no

AND c.acct_no = a.acct_no

AND a.svc_date BETWEEN b.start_dt AND b.end_dt

AND a.svc_date BETWEEN c.start_dt AND c.end_dt

AND a.svc_date BETWEEN d.start_dt AND d.end_dt

AND b.txt > ' '

AND c.txt > ' '

AND d.txt > ' ' ;

--------------------------------------------------------------------------------------------------------------

--------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:00.04 | 1937 |

|* 1 | FILTER | | 1 | | 200 |00:00:00.04 | 1937 |

| 2 | NESTED LOOPS | | 1 | | 200 |00:00:00.04 | 1937 |

| 3 | NESTED LOOPS | | 1 | 180M| 200 |00:00:00.09 | 1738 |

| 4 | NESTED LOOPS | | 1 | 1868K| 200 |00:00:00.04 | 1352 |

| 5 | NESTED LOOPS | | 1 | 19399 | 200 |00:00:00.02 | 783 |

| 6 | TABLE ACCESS BY INDEX ROWID| SVC | 1 | 201 | 200 |00:00:00.01 | 7 |

|* 7 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 201 | 200 |00:00:00.01 | 4 |

|* 8 | TABLE ACCESS BY INDEX ROWID| SVC_HIST | 200 | 96 | 200 |00:00:00.02 | 776 |

|* 9 | INDEX RANGE SCAN | IX_SVC_HIST_01 | 200 | 96 | 200 |00:00:00.01 | 576 |

|* 10 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 96 | 200 |00:00:00.02 | 569 |

|* 11 | INDEX RANGE SCAN | IX_ACCT_HIST_01 | 200 | 96 | 200 |00:00:00.01 | 371 |

|* 12 | INDEX RANGE SCAN | IX_CUST_HIST_01 | 200 | 96 | 200 |00:00:00.01 | 386 |

|* 13 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 96 | 200 |00:00:00.01 | 199 |

--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(SYSDATE@!-201<=SYSDATE@!-1)

7 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

8 - filter("B"."TXT">' ')

9 - access("B"."SVC_NO"="A"."SVC_NO" AND "B"."END_DT">=SYSDATE@!-201 AND "B"."END_DT" IS NOT NULL)

filter(("B"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="B"."START_DT" AND

"A"."SVC_DATE"<="B"."END_DT"))

10 - filter("C"."TXT">' ')

11 - access("C"."ACCT_NO"="A"."ACCT_NO" AND "C"."END_DT">=SYSDATE@!-201 AND "C"."END_DT" IS NOT

NULL)

filter(("C"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="C"."START_DT" AND

"A"."SVC_DATE"<="C"."END_DT"))

12 - access("D"."CUST_NO"="A"."CUST_NO" AND "D"."END_DT">=SYSDATE@!-201 AND "D"."END_DT" IS NOT

NULL)

filter(("D"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="D"."START_DT" AND

"A"."SVC_DATE"<="D"."END_DT"))

13 - filter("D"."TXT">' ')

1937 블럭을 Scan하였다. 수행시간도 1초미만으로 최적이다. 그럼 이제 최근 데이터가 아닌 오래된 데이터를 구해보자. 종료일자 + 시작일자 인덱스의 단점은 오래된 데이터를 구할 때 드러난다.

SELECT /*+ USE_NL(A B C D) INDEX(A IX_SVC_01) INDEX(B IX_SVC_HIST_01)
INDEX(C IX_ACCT_HIST_01) INDEX(D IX_CUST_HIST_01) */

a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM svc a, svc_hist b, acct_hist c, cust_hist d

WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799 -- 오래된 데이터 조회

AND b.svc_no = a.svc_no

AND d.cust_no = a.cust_no

AND c.acct_no = a.acct_no

AND a.svc_date BETWEEN b.start_dt AND b.end_dt

AND a.svc_date BETWEEN c.start_dt AND c.end_dt

AND a.svc_date BETWEEN d.start_dt AND d.end_dt

AND b.txt > ' '

AND c.txt > ' '

AND d.txt > ' ' ;

--------------------------------------------------------------------------------------------------------------

--------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:02.15 | 6498 |

|* 1 | FILTER | | 1 | | 200 |00:00:02.15 | 6498 |

| 2 | NESTED LOOPS | | 1 | | 200 |00:00:02.15 | 6498 |

| 3 | NESTED LOOPS | | 1 | 182M| 200 |00:00:01.31 | 6301 |

| 4 | NESTED LOOPS | | 1 | 1889K| 200 |00:00:01.21 | 4425 |

| 5 | NESTED LOOPS | | 1 | 19528 | 200 |00:00:01.11 | 2344 |

| 6 | TABLE ACCESS BY INDEX ROWID| SVC | 1 | 202 | 200 |00:00:00.01 | 7 |

|* 7 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 202 | 200 |00:00:00.01 | 3 |

|* 8 | TABLE ACCESS BY INDEX ROWID| SVC_HIST | 200 | 97 | 200 |00:00:00.77 | 2337 |

|* 9 | INDEX RANGE SCAN | IX_SVC_HIST_01 | 200 | 97 | 200 |00:00:00.65 | 2137 |

|* 10 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 97 | 200 |00:00:00.09 | 2081 |

|* 11 | INDEX RANGE SCAN | IX_CUST_HIST_01 | 200 | 97 | 200 |00:00:00.09 | 1887 |

|* 12 | INDEX RANGE SCAN | IX_ACCT_HIST_01 | 200 | 97 | 200 |00:00:00.09 | 1876 |

|* 13 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 97 | 200 |00:00:00.01 | 197 |

--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

7 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

8 - filter("B"."TXT">' ')

9 - access("B"."SVC_NO"="A"."SVC_NO" AND "B"."END_DT">=SYSDATE@!-1999 AND "B"."END_DT" IS NOT NULL)

filter(("B"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="B"."START_DT" AND

"A"."SVC_DATE"<="B"."END_DT"))

10 - filter("D"."TXT">' ')

11 - access("D"."CUST_NO"="A"."CUST_NO" AND "D"."END_DT">=SYSDATE@!-1999 AND "D"."END_DT" IS NOT NULL)

filter(("D"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="D"."START_DT" AND

"A"."SVC_DATE"<="D"."END_DT"))

12 - access("C"."ACCT_NO"="A"."ACCT_NO" AND "C"."END_DT">=SYSDATE@!-1999 AND "C"."END_DT" IS NOT NULL)

filter(("C"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="C"."START_DT" AND

"A"."SVC_DATE"<="C"."END_DT"))

13 - filter("C"."TXT">' ')

무려 6498 블럭을 Scan 하였다. 즉 3배 이상 느려져서 수행시간도 2초가 넘어버렸다. 물론 오래된 데이터를 자주 사용하지 않는다면 피해가 줄어들 것이다. 하지만 가끔이라도 오래된 데이터를 조회한다면 Timeout이 발생할 수 있다. 즉 성능을 위해 종료일자 컬럼을 추가하였지만 시점이 언제인가에 따라 성능이 더 느려질 수 있다는 것이다. 이 예제에서는 오래된 데이터를 2005년도로 가정하고 조회하였다. 현실에서는 2005년이면 그리 오래된 것이 아닐 수도 있다. 만약 테스트 데이터를 더 많이 만들어 2000년도 이전 데이터를 조회한다면 더 느려질 것이다.

그럼 이 문제를 어떻게 해결할 거니?

먼저 type을 하나 만들자. 이제부터는 종료일자 컬럼은 없다고 가정한다. 그리고 인덱스도 시작일자 인덱스만 사용한다.

CREATE OR REPLACE TYPE hist_type AS OBJECT

(b_st_dt date,

b_txt char(24),

c_st_dt date,

c_txt char(24),

d_st_dt date,

d_txt char(24) );

/

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

a.h.b_st_dt, a.h.b_txt, a.h.c_st_dt, a.h.c_txt, a.h.d_st_dt, a.h.d_txt

FROM (SELECT a.*,

(SELECT hist_type(b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt)

FROM ( SELECT * FROM svc_hist b ORDER BY start_dt DESC) b, --변경이력1

( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c, --변경이력2

( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d --변경이력3

WHERE b.svc_no = a.svc_no

AND b.start_dt <= a.svc_date

AND b.txt > ' '

AND c.cust_no = a.cust_no

AND c.start_dt <= a.svc_date

AND c.txt > ' '

AND d.acct_no = a.acct_no

AND d.start_dt <= a.svc_date

AND d.txt > ' '

AND ROWNUM = 1) AS h -- ROWNUM 사용

FROM svc a

WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1) a ;

위의 SQL이 복잡해 보이지만 스칼라 서브쿼리에 집중해 주기 바란다. 스칼라 서브쿼리 내부의 인라인뷰는 변경이력 테이블들이다. 여러 개의 서로 다른 변경이력 테이블을 조회한다고 해도 from 절에 인라인뷰를 계속 추가하면 된다. 위의 예제에서는 변경이력을 3개만 사용하였다. 그리고 여러 건을 조회할 때에도 rownum을 사용할 수 있음을 알 수 있다. 여기서 인라인뷰에 order by를 사용한 것은 Index_desc 힌트와 rownum = 1 조합은 안전한가? 에서 언급된 order by가 적용된 인라인뷰와 rownum의 원리를 이용한 것이다. 그리고 FPD(Filter Push Down : 조건이 뷰 내부로 파고듦)을 활용한 것이다.

-----------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:00.01 | 7 |

|* 1 | COUNT STOPKEY | | 200 | | 200 |00:00:00.02 | 2006 |

| 2 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 2006 |

| 3 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 1202 |

| 4 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 600 |

|* 5 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 100 | 200 |00:00:00.01 | 600 |

|* 6 | INDEX RANGE SCAN DESCENDING| PK_CUST_HIST | 200 | 18 | 200 |00:00:00.01 | 400 |

| 7 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 602 |

|* 8 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 100 | 200 |00:00:00.01 | 602 |

|* 9 | INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST | 200 | 18 | 200 |00:00:00.01 | 402 |

| 10 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 804 |

|* 11 | TABLE ACCESS BY INDEX ROWID | SVC_HIST | 200 | 100 | 200 |00:00:00.01 | 804 |

|* 12 | INDEX RANGE SCAN DESCENDING | PK_SVC_HIST | 200 | 18 | 200 |00:00:00.01 | 604 |

|* 13 | FILTER | | 1 | | 200 |00:00:00.01 | 7 |

| 14 | TABLE ACCESS BY INDEX ROWID | SVC | 1 | 201 | 200 |00:00:00.01 | 7 |

|* 15 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 201 | 200 |00:00:00.05 | 4 |

-----------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

5 - filter("C"."TXT">' ')

6 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

8 - filter("D"."TXT">' ')

9 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

11 - filter("B"."TXT">' ')

12 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

13 - filter(SYSDATE@!-201<=SYSDATE@!-1)

15 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

성능 또한 최적이다. 물론 종료일자 + 시작일자 인덱스에 비해 조금 많은 블럭을 Scan 하였지만 무시할 수 있는 정도이다. 이 정도면 종료일자 + 시작일자 인덱스 보다 우월하다. 그 이유는 오래된 데이터를 조회 할 때에도 성능이 동일 하다는 것이다. 아래의 SQL을 보자.

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

a.h.b_st_dt, a.h.b_txt, a.h.c_st_dt, a.h.c_txt, a.h.d_st_dt, a.h.d_txt

FROM (SELECT a.*,

(SELECT hist_type(b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt)

FROM ( SELECT * FROM svc_hist b ORDER BY start_dt DESC) b,

( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d

WHERE b.svc_no = a.svc_no

AND b.start_dt <= a.svc_date

AND b.txt > ' '

AND c.cust_no = a.cust_no

AND c.start_dt <= a.svc_date

AND c.txt > ' '

AND d.acct_no = a.acct_no

AND d.start_dt <= a.svc_date

AND d.txt > ' '

AND ROWNUM = 1) AS h

FROM svc a

WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799) a ;

-----------------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:00.01 | 7 |

|* 1 | COUNT STOPKEY | | 200 | | 200 |00:00:00.02 | 2004 |

| 2 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 2004 |

| 3 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 1202 |

| 4 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 602 |

|* 5 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 100 | 200 |00:00:00.01 | 602 |

|* 6 | INDEX RANGE SCAN DESCENDING| PK_CUST_HIST | 200 | 18 | 200 |00:00:00.01 | 402 |

| 7 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 600 |

|* 8 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 100 | 200 |00:00:00.01 | 600 |

|* 9 | INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST | 200 | 18 | 200 |00:00:00.01 | 400 |

| 10 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 802 |

|* 11 | TABLE ACCESS BY INDEX ROWID | SVC_HIST | 200 | 100 | 200 |00:00:00.01 | 802 |

|* 12 | INDEX RANGE SCAN DESCENDING | PK_SVC_HIST | 200 | 18 | 200 |00:00:00.01 | 602 |

|* 13 | FILTER | | 1 | | 200 |00:00:00.01 | 7 |

| 14 | TABLE ACCESS BY INDEX ROWID | SVC | 1 | 202 | 200 |00:00:00.01 | 7 |

|* 15 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 202 | 200 |00:00:00.01 | 3 |

-----------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

5 - filter("C"."TXT">' ')

6 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

8 - filter("D"."TXT">' ')

9 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

11 - filter("B"."TXT">' ')

12 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

13 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

15 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

예전 데이터를 조회할 때에도 성능이 동일함을 알 수 있다. 이것은 매우 중요한 관점이다. 같은 SQL을 실행함에도 매우 느릴때가 있고, 매우 빠를 때가 있다면 그 SQL의 성능은 불안정하다고 할 수 있다. 이로써 이전 글에서 이슈가 되었던 여러 건을 조회할 때에도 종료일자는 필요 없음을 알 수 있다. 물론 SQL이 몇 줄 길어지긴 했지만 그 이유 때문에 역정규화의 단점인 데이터의 정합성을 해칠 수는 없는 일이다. SQL이 몇 줄 늘어나더라도 이렇게 사용해야 하는 이유는 또 있다.

역정규화할때 필요한 정합성을 체크하는 프로그램의 길이를 생각하면 몇 줄의 손해는 아무것도 아니다. 여기에 더하여 정합성을 보정하는 프로그램도 필요하므로 위의 몇 줄이 추가된 SQL이 손해라고 생각할 수는 없다. 또한 위의 SQL이 어려운 전문가용 SQL이라고 생각 하지는 않는다.

우리는 Type을 쓸 수 없다

만약 type을 이용할 수 없는 환경이라면 아래의 SQL을 이용해야 한다. 비슷한 유형이지만 이 경우는 변경이력 테이블을 두 번 Scan하는 비효율을 감안해야 한다. 물론 이때에도 rownum = 1은 사용할 수 있다. 먼저 최근의 데이터를 조회한다.

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM (SELECT a.*,

(SELECT b.rowid||c.rowid||d.rowid as rid

FROM ( SELECT * FROM svc_hist b ORDER BY start_dt DESC) b,

( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d

WHERE b.svc_no = a.svc_no

AND b.start_dt <= a.svc_date

AND b.txt > ' '

AND c.cust_no = a.cust_no

AND c.start_dt <= a.svc_date

AND c.txt > ' '

AND d.acct_no = a.acct_no

AND d.start_dt <= a.svc_date

AND d.txt > ' '

AND ROWNUM = 1) AS rid

FROM svc a

WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1 ) a,

svc_hist b, cust_hist C, acct_hist D

WHERE SUBSTR(A.RID, 1, LENGTH(A.RID)/3) = B.ROWID

AND SUBSTR(A.RID, LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = C.ROWID

AND SUBSTR(A.RID, 2*LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = D.ROWID ;

------------------------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:00.02 | 2610 |

| 1 | NESTED LOOPS | | 1 | 8040G| 200 |00:00:00.02 | 2610 |

|* 2 | COUNT STOPKEY | | 200 | | 200 |00:00:00.01 | 2006 |

| 3 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 2006 |

| 4 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 1202 |

| 5 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 600 |

|* 6 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 100 | 200 |00:00:00.01 | 600 |

|* 7 | INDEX RANGE SCAN DESCENDING| PK_CUST_HIST | 200 | 18 | 200 |00:00:00.01 | 400 |

| 8 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 602 |

|* 9 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 100 | 200 |00:00:00.01 | 602 |

|* 10 | INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST | 200 | 18 | 200 |00:00:00.01 | 402 |

| 11 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 804 |

|* 12 | TABLE ACCESS BY INDEX ROWID | SVC_HIST | 200 | 100 | 200 |00:00:00.01 | 804 |

|* 13 | INDEX RANGE SCAN DESCENDING | PK_SVC_HIST | 200 | 18 | 200 |00:00:00.01 | 604 |

| 14 | NESTED LOOPS | | 1 | 201M| 200 |00:00:00.02 | 2410 |

| 15 | NESTED LOOPS | | 1 | 201K| 200 |00:00:00.02 | 2212 |

| 16 | VIEW | | 1 | 201 | 200 |00:00:00.02 | 2013 |

|* 17 | FILTER | | 1 | | 200 |00:00:00.01 | 7 |

| 18 | TABLE ACCESS BY INDEX ROWID | SVC | 1 | 201 | 200 |00:00:00.01 | 7 |

|* 19 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 201 | 200 |00:00:00.01 | 4 |

| 20 | TABLE ACCESS BY USER ROWID | CUST_HIST | 200 | 1000 | 200 |00:00:00.01 | 199 |

| 21 | TABLE ACCESS BY USER ROWID | ACCT_HIST | 200 | 1000 | 200 |00:00:00.01 | 198 |

| 22 | TABLE ACCESS BY USER ROWID | SVC_HIST | 200 | 40000 | 200 |00:00:00.01 | 200 |

------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - filter(ROWNUM=1)

6 - filter("C"."TXT">' ')

7 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

9 - filter("D"."TXT">' ')

10 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

12 - filter("B"."TXT">' ')

13 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

17 - filter(SYSDATE@!-201<=SYSDATE@!-1)

19 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

변경이력에서 단 하나의 컬럼만 조회할 때는 위의 방법을 사용할 필요가 없다. rowid 대신에 값을 select 하면 된다. 따라서 비효율도 없다. 하지만 변경이력에서 여러 컬럼을 조회해야 한다면 위의 방법처럼 rowid를 사용해야 한다. 그렇게 되면 변경이력 테이블은 두 번씩 액세스 하는 셈이다. 하지만 이때에도 인덱스는 두 번 Scan 하지 않는다. 이제 성능의 안정성을 보기 위해 오래된 데이터를 조회해 보자.

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

FROM (SELECT a.*,

(SELECT b.rowid||c.rowid||d.rowid as rid

FROM ( SELECT * FROM svc_hist b ORDER BY start_dt DESC) b,

( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d

WHERE b.svc_no = a.svc_no

AND b.start_dt <= a.svc_date

AND b.txt > ' '

AND c.cust_no = a.cust_no

AND c.start_dt <= a.svc_date

AND c.txt > ' '

AND d.acct_no = a.acct_no

AND d.start_dt <= a.svc_date

AND d.txt > ' '

AND ROWNUM = 1) AS rid

FROM svc a

WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799 ) a,

svc_hist b, cust_hist C, acct_hist D

WHERE SUBSTR(A.RID, 1, LENGTH(A.RID)/3) = B.ROWID

AND SUBSTR(A.RID, LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = C.ROWID

AND SUBSTR(A.RID, 2*LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = D.ROWID;

------------------------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | | 200 |00:00:00.02 | 2602 |

| 1 | NESTED LOOPS | | 1 | 8080G| 200 |00:00:00.02 | 2602 |

|* 2 | COUNT STOPKEY | | 200 | | 200 |00:00:00.02 | 2004 |

| 3 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 2004 |

| 4 | NESTED LOOPS | | 200 | 1 | 200 |00:00:00.01 | 1202 |

| 5 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 602 |

|* 6 | TABLE ACCESS BY INDEX ROWID | CUST_HIST | 200 | 100 | 200 |00:00:00.01 | 602 |

|* 7 | INDEX RANGE SCAN DESCENDING| PK_CUST_HIST | 200 | 18 | 200 |00:00:00.01 | 402 |

| 8 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 600 |

|* 9 | TABLE ACCESS BY INDEX ROWID | ACCT_HIST | 200 | 100 | 200 |00:00:00.01 | 600 |

|* 10 | INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST | 200 | 18 | 200 |00:00:00.01 | 400 |

| 11 | VIEW | | 200 | 1 | 200 |00:00:00.01 | 802 |

|* 12 | TABLE ACCESS BY INDEX ROWID | SVC_HIST | 200 | 100 | 200 |00:00:00.01 | 802 |

|* 13 | INDEX RANGE SCAN DESCENDING | PK_SVC_HIST | 200 | 18 | 200 |00:00:00.01 | 602 |

| 14 | NESTED LOOPS | | 1 | 202M| 200 |00:00:00.03 | 2402 |

| 15 | NESTED LOOPS | | 1 | 202K| 200 |00:00:00.02 | 2205 |

| 16 | VIEW | | 1 | 202 | 200 |00:00:00.02 | 2011 |

|* 17 | FILTER | | 1 | | 200 |00:00:00.01 | 7 |

| 18 | TABLE ACCESS BY INDEX ROWID | SVC | 1 | 202 | 200 |00:00:00.01 | 7 |

|* 19 | INDEX RANGE SCAN | IX_SVC_01 | 1 | 202 | 200 |00:00:00.01 | 3 |

| 20 | TABLE ACCESS BY USER ROWID | CUST_HIST | 200 | 1000 | 200 |00:00:00.01 | 194 |

| 21 | TABLE ACCESS BY USER ROWID | ACCT_HIST | 200 | 1000 | 200 |00:00:00.01 | 197 |

| 22 | TABLE ACCESS BY USER ROWID | SVC_HIST | 200 | 40000 | 200 |00:00:00.01 | 200 |

------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - filter(ROWNUM=1)

6 - filter("C"."TXT">' ')

7 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

9 - filter("D"."TXT">' ')

10 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

12 - filter("B"."TXT">' ')

13 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

17 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

19 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

이번에는 같은 방법으로 오래된 데이터를 조회 해보았지만 성능은 역시 안정적이다. 최근 데이터를 조회할 때는 종료일자 + 시작일자 인덱스가 1937 블럭을 Scan하였고 위의 SQL 에서는 2602블럭을 Scan 하였으므로 좋지 않다고 생각할 수 있다. 하지만 오래된 데이터를 구할 때 종료일자 + 시작일자 인덱스가 6498 블럭이나 Scan 하였다는 점을 생각하면 같은 테이블들을 두번씩이나 사용했음에도 성능에서 우열을 가리기 힘들다.

결론

변경이력을 Between 으로 조인해서 여러 건을 조회할 때에도 종료일자의 장점은 찾기 힘들므로 변경일자(시작일자)만 사용하면 된다. 어찌되었건 현재와 같은 무조건적인 종료일자의 사용은 자제해야 한다. 역정규화를 하거나 하지 않는 것은 당신의 자유다. 그리고 변경이력에 종료일자를 추가하여 역정규화 하는 것은 정합성 측면에서는 손실이지만 장점도 있다. 하지만 그것은 성능이 아니라 SQL이 간단해진다는 관점이 아닐까? 몇 배나 단순해질지가 문제이긴 하지만....

PS

이 글을 보고 성급하게 운영중인 테이블을 건드리면 안 된다. 제발 운영중인 테이블과 인덱스는 그냥 두기 바란다. 만약 역정규화를 제거하려면 다음 번 모델링 시에 반영하기 바란다. 그것이 아니라면 철저히 준비하고 실행하기 바란다.

현실세계의 모든 문제를 해결할 수 있는 글이란 없다. 그러므로 시작일자 컬럼만으로 해결하기 어려운 또 다른 패턴의 SQL이 있다면 나에게 알려주기 바란다. 그래야 더 많은 문제가 해결 될 터이니. 시작일자만으로 구현하기 어려운 SQL들도 결국은 몇 개의 패턴으로 정리되지 않을까 생각해본다.

'Modeling' 카테고리의 다른 글

과학과 철학의 간격 (2)	2010.12.15
3부 - 변경이력 테이블에 종료일자가 필요한가? (8)	2010.12.03
변경이력 테이블에 종료일자가 필요한가? (30)	2010.11.17
역정규화 무엇이 문제인가? (7)	2009.12.14
Varchar2(8) VS Date 어느 것이 우월한가? (18)	2009.10.21

Posted by extremedb

,

변경이력 테이블에 종료일자가 필요한가?

Modeling 2010. 11. 17. 01:01

테스트에 사용할 이력테이블을 현실에 가깝에 만들어서 테스트 해달라는 요청이 있었습니다. 그래서 첨부파일을 따로 올립니다. 고객번호가 테이블과 인덱스에 추가된것을 제외하고 내용은 대동소이합니다. 2010.11.18

invalid-file

-점이력과 선분이력의 차이는 무엇인가?
-선분이력은 언제 필요한가?

주문상품 변경이력 테이블에 종료일시가 보인다. 설계자에게 종료일시가 왜 필요한지 물어보았다. “선분이력을 만들기 위함입니다.” 왠 선분이력? 주문상품 변경이력에 선분이력이 왜 필요한지 다시 물어 보았다. “최근에 변경된 주문 데이터를 가져오려면 주문번호 + 상품번호 + 종료일시 + 시작일시로 PK 인덱스를 구성해야 빠르게 가져올 수 있기 때문입니다. 알만 하신 분이 이런것을 왜 물어봅니까?” 어이쿠 한방 맞았다. 이럴때는 물러나야 한다. 설계자가 필자를 감사나 감리로 느낄 수 있기 때문이다.

각종 변경이력 테이블에 인덱스(종료일자 + 시작일자) 열풍이 지난 몇 년간 불고 있는 듯하다. 인덱스를 떠나서 종료일자를 아예 PK 컬럼으로 설정해 놓고 있다. 하지만 유용한 물건도 용도를 모르고 사용하면 다칠 수 있다. 변경이력에 성능을 위한 종료일자는 필요 없다. 종료일자는 성능관점에서 고려할 것이 아니라 업무적으로 필요할 때만 사용해야 한다.

환경: Oracle 11g R2

(시작일시 + 종료일시) 인덱스와 (종료일시 + 시작일시) 인덱스의 성능비교를 위해 100만 건을 생성한다.

CREATE TABLE TEST1 AS

SELECT SYSDATE - level AS start_dt, --시작일시

SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

'종료일자의 필요성 테스트' as txt

FROM DUAL

CONNECT BY LEVEL <= 1000000;

ALTER TABLE TEST1 MODIFY(START_DT NOT NULL, END_DT NOT NULL);

CREATE INDEX idx_test1_01 ON TEST1 (START_DT, END_DT) ;

CREATE INDEX idx_test1_02 ON TEST1 (END_DT, START_DT) ;

begin

dbms_stats.gather_table_stats(user, 'TEST1', cascade => true);

end;

시작일시, 종료일시의 min, max 값을 구해보자.

select TO_CHAR(min(START_DT), 'SYYYYMMDD HH24MISS') min_st_dt,

TO_CHAR(max(START_DT), 'SYYYYMMDD HH24MISS') max_st_dt,

TO_CHAR(min(END_DT), 'SYYYYMMDD HH24MISS') min_ed_dt,

TO_CHAR(max(END_DT), 'SYYYYMMDD HH24MISS') max_ed_dt

from test1;

MIN_ST_DT MAX_ST_DT MIN_ED_DT MAX_ED_DT

---------------- ---------------- ---------------- ----------------

-07281227 105223 20101115 105223 -07281228 105222 20101116 105222

1 row selected.

BC 728년부터 시작하여 가장 최근의 시작일자는 2010년 11월 15일 10시 52분 23초이다. 참고로 BC를 나타내려면 ‘SYYYYMMDD’를 포맷으로 사용해야 한다. 이제 테스트를 시작해보자.

최근 정보를 구할 때 시작일자 + 종료일자 인덱스는 느리다?

최근 데이터를 구할 때는 시작일시 + 종료일시 인덱스를 사용하면 비효율적이라고 하였다. 정말 그런지 (시작일시 + 종료일시) 인덱스를 이용하여 가장 최근의 데이터를 구해보자.

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_01) */ *

FROM TEST1 T

WHERE TO_DATE('20101116', 'SYYYYMMDD') BETWEEN start_dt AND end_dt

AND ROWNUM = 1;

----------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.21 | 3773 |

|* 1 | COUNT STOPKEY | | 1 | 1 |00:00:00.21 | 3773 |

| 2 | TABLE ACCESS BY INDEX ROWID| TEST1 | 1 | 1 |00:00:00.21 | 3773 |

|* 3 | INDEX RANGE SCAN | IDX_TEST1_01 | 1 | 1 |00:00:00.21 | 3772 |

----------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

3 - access("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND

"START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

filter("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

시작일자 + 종료일자 인덱스는 최근의 데이터를 구할 때 불리하다. 한 건을 구하기 위해 3773 블럭이나 Scan 하였기 때문이다. 시작일자 + 종료일자 인덱스는 최근 데이터를 구할 때 비효율적임을 알 수 있다.

최근 정보를 구할 때 종료일자 + 시작일자 인덱스는 빠르다?
최근 정보(2010년 11월 16일 데이터)를 구하기 위해 종료일자 + 시작일자 인덱스를 이용한다.

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_02) */ *

FROM TEST1 T

WHERE TO_DATE('20101116', 'SYYYYMMDD') BETWEEN start_dt AND end_dt

AND ROWNUM = 1;

----------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.01 | 4 |

|* 1 | COUNT STOPKEY | | 1 | 1 |00:00:00.01 | 4 |

| 2 | TABLE ACCESS BY INDEX ROWID| TEST1 | 1 | 1 |00:00:00.01 | 4 |

|* 3 | INDEX RANGE SCAN | IDX_TEST1_02 | 1 | 1 |00:00:00.01 | 3 |

----------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

3 - access("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND

"START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

filter("START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

종료일자 + 시작일자 인덱스는 불과 4블록만 Scan 하였으므로 매우 효율적이다. 설계자들이 종료일자를 선호하는 이유는 이것뿐이 아니다. 최종 변경건의 종료일자에 ‘99991231’을 입력하면 쉽고 빠르게 max 값을 찾을 수 있다는 사실이 모델러를 기쁘게 한다. 아래의 SQL을 보자.

Max 일자를 구하기 위해 최종 종료일자를 4000년 12월 31일로 update 한다.

UPDATE TEST1

SET END_DT = TO_DATE('40001231','YYYYMMDD')

WHERE start_dt = TO_DATE('20101115 105223', 'SYYYYMMDD HH24MISS') ;

1 row updated.

COMMIT;

Commit complete.

이제 max 값을 구해보자.

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_02) */ *

FROM TEST1 T

WHERE end_dt = TO_DATE('40001231','YYYYMMDD')

AND ROWNUM = 1;

----------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.01 | 4 |

|* 1 | COUNT STOPKEY | | 1 | 1 |00:00:00.01 | 4 |

| 2 | TABLE ACCESS BY INDEX ROWID| TEST1 | 1 | 1 |00:00:00.01 | 4 |

|* 3 | INDEX RANGE SCAN | IDX_TEST1_02 | 1 | 1 |00:00:00.01 | 3 |

----------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

3 - access("END_DT"=TO_DATE(' 4000-12-31 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

좋은 것이 아니라 선입견이다. 틀을 깨라

종료일자에 4000년 12월 31일 조건만 주면 쉽고 빠르게 max 값을 구할 수 있다. 정리하면, 종료일시 + 시작일시 인덱스는 빠르고, between을 사용할 수 있고, 종료일자에 = 조건을 주면 max값을 찾을 수 있다. 이 세 가지 사실만으로 종료일자는 충분히 매력적이라고 생각 할 수 있다.

하지만 역설적이게도 이런 사실들은 여러 사람을 함정에 빠트린다. 종료일시라는 컬럼을 사용하는 것이 왜 함정인지 지금부터 논의해보자.

인덱스를 동적으로 바꿔서 사용할 것인가?

위의 예제들을 보면 인덱스(종료일자 + 시작일자)를 사용해야 하는 것처럼 보인다. 하지만 최근 데이터가 아닌 오래된 데이터를 보려면 어떻게 할 것인가? 최근 데이터를 구할 때는 종료일자 + 시작일자 인덱스를 사용하고 예전 데이터를 구할 때는 시작일자 + 종료일자 인덱스를 사용해야 하는가? 그렇게 하려면 기준이 필요하다. 언제부터가 오래된 데이터 인가? 1달 전 데이터? 아니면 1년 전 데이터? 이력테이블마다 기준을 만든다는 것은 불가능한 일이므로 그렇게 할 수도 없고, 그렇게 할 필요도 없다.

PK의 정합성을 어떻게 확보할 것인가?
서론에서 언급했던 PK에 대해서 논의해보자. 성능관점에서 주문번호 + 상품번호 + 종료일시 + 시작일시를 PK로 지정했다고 가정하고, 이때까지 PK의 정합성에 별 문제가 없다고 좋아해서는 안 된다. 주문상품 변경이력 테이블에서 본래의 식별자는 주문번호 + 상품번호 + 변경일시(시작일시)이다. 이 3개의 컬럼으로 Unique를 만족해야 한다. 하지만 종료일시가 PK에 끼어듦으로 해서 정합성이 깨질 수 있다. 예를 들면 종료일시를 PK에 추가하는 순간 ‘같은 주문번호로 같은 상품을 같은 변경일시’에 2건이상 insert 하는 것(Dup)을 허용하는 꼴이 된다. 종료일시를 PK에 추가하였으므로 세개의 값이 같아도 종료일시만 다르다면 insert가 가능하다. 변경이력 테이블의 데이터에 Dup이 많은 이유는 대부분 종료일시 때문이다.

인덱스에서 종료일자를 빼면 성능이 저하된다?

왜 인덱스(종료일시 + 시작일시) VS 인덱스(시작일시 + 종료일시)만 고려해야 하는가? 틀을 깨보자. 그냥 시작일시만 인덱스로 잡아보자. 기존 인덱스를 모조리 삭제하고 시작일시만으로 구성된 인덱스 만들어 본다. 그리고 이제부터 종료일시 컬럼도 없다고 가정한다.

DROP INDEX idx_test1_01;

DROP INDEX idx_test1_02;

CREATE INDEX idx_test1_03 ON TEST1 (START_DT) ;

이제 최종 데이터를 구해보자.

SELECT /*+ gather_plan_statistics */ *

FROM test1 t

WHERE start_dt = (SELECT MAX (start_dt) FROM test1);

----------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.01 | 7 |

| 1 | TABLE ACCESS BY INDEX ROWID | TEST1 | 1 | 1 |00:00:00.01 | 7 |

|* 2 | INDEX RANGE SCAN | IDX_TEST1_03 | 1 | 1 |00:00:00.01 | 6 |

| 3 | SORT AGGREGATE | | 1 | 1 |00:00:00.01 | 3 |

| 4 | INDEX FULL SCAN (MIN/MAX)| IDX_TEST1_03 | 1 | 1 |00:00:00.01 | 3 |

----------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

2 - access("START_DT"=)

시작일시가 인덱스의 선두컬럼이므로 성능이 좋지 않을것으로 판단하면 오산이다. 3773 블록이 아니라 고작 7블록을 scan 했다. 이 정도면 충분한 성능이다. 서브쿼리를 사용했으므로 SQL이 복잡해진다는 의견은 받아 들일 수 없다. 위의 쿼리가 그렇게 복잡하다면 SQL을 다시 공부해야 한다.

또 다른 반박의견으로는 종료일시 + 시작일시 인덱스를 사용하면 4블록만 Scan하지만 시작일시만으로 구성된 인덱스는 7블록을 Scan한다는 의견이 있다. 맞는 말이다. 하지만 초당 수백 번 혹은 수천 번 사용되는 것이 아니라면 이대로 사용해도 무리가 없다. 만약 자주 사용되어 부하가 심한 SQL이라면 다음처럼 사용하면 된다.

SELECT /*+ gather_plan_statistics */ *

FROM (SELECT *

FROM test1 a

ORDER BY a.start_dt DESC)

WHERE ROWNUM = 1 ;

-----------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.01 | 4 |

|* 1 | COUNT STOPKEY | | 1 | 1 |00:00:00.01 | 4 |

| 2 | VIEW | | 1 | 1 |00:00:00.01 | 4 |

| 3 | TABLE ACCESS BY INDEX ROWID| TEST1 | 1 | 1 |00:00:00.01 | 4 |

| 4 | INDEX FULL SCAN DESCENDING| IDX_TEST1_03 | 1 | 1 |00:00:00.01 | 3 |

-----------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

정확히 4블록만 Scan 하였으며, 위의 SQL도 복잡하지 않음을 알 수 있다. max값을 구하기 위해 종료일자 컬럼은 필요치 않음을 알 수 있다.

종료일시 + 시작일시로 구성된 인덱스의 장점은 특정 시점의 테이터를 between으로 구할 수 있다는 것이다. 종료일시 컬럼이 없고 시작일시만으로 구성된 인덱스는 특정시점의 데이터를 조회해야 할때 between을 사용할 수는 없다. 과연 SQL은 얼마나 복잡해질까? 또한 최근 데이터를 구할 때 얼마나 느려질까?

SELECT /*+ gather_plan_statistics */ *

FROM (SELECT *

FROM test1

WHERE start_dt <= TO_DATE('20101115 105223', 'SYYYYMMDD HH24MISS')

ORDER BY start_dt DESC )

WHERE ROWNUM = 1;

------------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 1 |00:00:00.01 | 4 |

|* 1 | COUNT STOPKEY | | 1 | 1 |00:00:00.01 | 4 |

| 2 | VIEW | | 1 | 1 |00:00:00.01 | 4 |

| 3 | TABLE ACCESS BY INDEX ROWID | TEST1 | 1 | 1 |00:00:00.01 | 4 |

|* 4 | INDEX RANGE SCAN DESCENDING| IDX_TEST1_03 | 1 | 1 |00:00:00.01 | 3 |

------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter(ROWNUM=1)

4 - access("START_DT"<=TO_DATE(' 2010-11-15 10:52:23', 'syyyy-mm-dd hh24:mi:ss'))

장점이 없는데 자리만 차지한다

특정 시점의 데이터를 구하려면 시작일시 <= 특정시점을 만족하는 데이터 중에 max(시작일시)에 해당하는 값을 취하면 된다. 위에서 보듯이 SQL이 어렵지 않으며 성능 또한 최적이다. 이로써 특정시점의 데이터를 구하는 것도 종료일시가 필요치 않으며, 시작일시 인덱스만으로도 충분한 성능을 낸다는 것을 알 수 있다. 또한 최근 데이터(2010년 11월 15일)를 구할 때에도 시작일시 인덱스를 사용하면 최적이다. 이제 종료일시 + 시작일시 인덱스는 성능이 우월 하지 않음을 알게 되었다. 또한 종료일시 컬럼은 어떠한 장점도 없으면서 테이블과 인덱스의 덩치(Disk Size)만 크게한다는 것도 알게 되었다.

변경이력에서 종료일자는 추출속성이며 성능을 위해 역정규화 한 것

사실은 ~변경이력에서 시작일자 혹은 종료일자란 없는 것이다. 시작일자는 변경일자로 사용해야 하며 종료일자는 존재하지 않는 것이다. 종료일자 혹은 종료일시는 추출속성이다. 이 추출 속성을 유지하기 위해 원본 테이블의 데이터가 변경될 때마다 트리거성으로 이력테이블의 종료일자에 update가 발생한다. 이 update가 없다면 변경이력 테이블의 모든 종료일자의 값은 ‘99991231’일 것이다.

만약 종료일자 없이 시작일자만 관리했다면 이러한 update는 발생하지 않는다. 원본 테이블에 변경이 자주 발생할 수록 update의 부하는 심해질 것이다. 또한 가능성은 많지 않지만 이런 역정규화에 의해 데이터의 정합성이 깨질 수도 있다.

그럼 종료일자는 언제 사용해야 하나?

가장 중요한 부분이다. 종료일자는 성능관점이 아니라 업무(Business)적으로 필요할 때만 써야 한다. 예를 들어보자. 당신이 프로젝트에 투입되는 계약을 했다고 가정해보자. 그 계약서에는 '며칠부터 며칠까지 프로젝트에 투입된다'고 명시되어 있어야 한다. 이럴 때는 시작일자 종료일자를 사용해야 한다. 또한 자동차를 빌릴 때(Rent)에도 언제부터 언제까지 사용할 것인지 명시되어야 한다. ~변경이력과 변경이력이 아닌 것과의 차이점을 알았다면 종료일자를 언제 써야 하는지도 이해한 것이다. 바로 이것이 점이력과 선분이력의 차이이다. 원래 점이력이었던 것을 선분이력으로 바꾸어선 안된다.

결론

1 ~변경이력 테이블에서 종료일자는 성능관점이나 개발생산성 관점에서 장점이 없다.

2 ~변경이력 테이블의 PK에 종료일자를 추가하면 정합성을 해칠 수 있다. 이렇게 되면 DB 차원에서 정합성을 보장하지 못한다. 따라서 종료일자가 추가된 PK가 존재함에도 불구하고 주문번호 + 상품번호 + 시작일자로 Unique 인덱스를 추가로 생성하거나 아니면 프로그램에서 정합성 체크를 해야 한다.
3 ~변경이력 테이블에서 종료일자는 테이블과 인덱스의 사이즈를 각각 크게한다. Disk 공간이 더 필요할 것이다.

4 인덱스가 A + B 일 때 insert 하는 속도는 인덱스가 B 컬럼으로만 되어있을 때 insert 하는 속도보다 느리다. 이 원리는 종료일자 + 시작일자 인덱스와 시작일자만으로 구성된 인덱스에도 적용된다.

5 ~변경이력 테이블에서 종료일자는 추출속성이며 역정규화가 필요하다. 역정규화는 원본데이터가 변경될 때마다 update가 추가로 발생된다.
6 역정규화는 데이터가 틀어질 위험성을 가지고 있다.

1, 2, 3, 4, 5, 6에 의해서 종료일자 혹은 종료일시는 변경이력에서 성능관점으로 사용해서는 안되며 업무적으로 필요할 때에만 사용해야 한다. 이렇게 된다면 성능이 보장되는 것은 물론이고, 인덱스와 테이블의 사이즈도 줄어들 뿐만 아니라 역정규화의 단점인 update의 부하와 데이터의 정합성이 틀어지는 것을 막을 수 있다.

필자는 선입견이 많아서 자주 되뇌이는 말이 있다. "진실이라고 생각되는 것들은 때때로 변한다. 하지만 선입견은 좀처럼 변하지 않는다." 만약 이말을 따른다면 우리가 이미 알고 있다고 생각하는 것들을 의도적으로 의심해 보아야 한다. 나는 이런 사람들을 린치핀이라 부르고 싶다.

저작자표시 비영리 동일조건

'Modeling' 카테고리의 다른 글

3부 - 변경이력 테이블에 종료일자가 필요한가? (8)	2010.12.03
2부 - 변경이력 테이블에 종료일자가 필요한가? (10)	2010.11.24
역정규화 무엇이 문제인가? (7)	2009.12.14
Varchar2(8) VS Date 어느 것이 우월한가? (18)	2009.10.21
모델링에 관한 즐거운 토론 (10)	2008.10.19

Posted by extremedb

,

Science of Database

'Database Design'에 해당되는 글 5건

관계선을 함부로 긋는 이유

'Modeling' 카테고리의 다른 글

과학과 철학의 간격

'Modeling' 카테고리의 다른 글

3부 - 변경이력 테이블에 종료일자가 필요한가?

'Modeling' 카테고리의 다른 글

2부 - 변경이력 테이블에 종료일자가 필요한가?

'Modeling' 카테고리의 다른 글

변경이력 테이블에 종료일자가 필요한가?

'Modeling' 카테고리의 다른 글

카테고리

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

태그목록

최근에 받은 트랙백

티스토리툴바


	오동규 블로그 odong91@naver.com by extremedb