-
변경이력에서 여러 건을 조회 할 때의 해결방법

-변경이력 조회시 rownum의 활용

 

들어가기 전에
이 글을 읽기 위해서 지난번 글(변경이력 테이블에 종료일자가 필요한가?)을 먼저 읽고 오기 바란다. 그렇지 않으면 이해하기 힘들며 이 글과 어떻게 연결되는지 알 수 없다.

이전 글이 다분히 이론적이었다면 이번에는 실전적인 문제를 다룬다. 이 글에서 언급된 기법을 알지 못하면 실무에서 종료일자가 없이 시작일자만을 사용했을때 성능이 떨어질 것이다.

이 글은 종료일자의 장단점에 대해 충분한 고민후에 사용했던 사람들에 대한 공격이 아님을 일러둔다. 역정규화에 대한 위험성을 알리고, 정규형 또한 빠른 성능을 가졌다는 것을 증명함으로써 종료일자를 사용할 때는 많은 고민이 있어야 한다는 것을 주장하는 것이다.  

글의시작
지난 글에서 뜨거운 토론이 있었다. 무려 댓글이 28개나 달렸으며 의견도 크게 두 가지로 갈렸다. 즉 데이터 정합성을 위해 종료일자를 자제해야 한다는 측과 성능관점에서는 장점이 워낙 크므로 종료일자를 사용해야 한다는 측의 두 가지이다. 여러 반론들도 쏟아졌다. 현실 세계의 다양하고 복잡한 SQL이 있으므로 지난 시간에 언급했던 세가지 유형만으로는 충분하지 않다는 것. 일리가 있다. 그래서 이번 시간에는 현실에서 많이 나오는 패턴에 대하여 알아보기로 하자. MAX 값 한 건이나 특정시점의 한 건을 구하는 것이 아니라 여러 건이 조회되는 패턴에 대해 알아보겠다지난 글에서 여러 사람들이 이야기 하는 현실적인 예제란 아래와 같았다.

  

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

  FROM svc a, svc_hist b, acct_hist c, cust_hist d

 WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1

   AND b.svc_no = a.svc_no

   AND d.cust_no = a.cust_no

   AND c.acct_no = a.acct_no

   AND a.svc_date BETWEEN b.start_dt AND b.end_dt -- 서비스 변경이력

   AND a.svc_date BETWEEN c.start_dt AND c.end_dt -- 계정 변경이력

   AND a.svc_date BETWEEN d.start_dt AND d.end_dt -- 고객 변경이력

   AND b.txt > ' '

   AND c.txt > ' '

   AND d.txt > ' ' ;

 

시작일자만으로 이 SQL을 빠르게 조회할 수 있니?
조인조건을 보면 특정시점이 아닌 a.svc_date로 변경이력과 between 조인을 하고 있다. 이런 스타일의 SQL에서는 시작일자 컬럼만으로는 between을 사용할 수 없으므로 느리다는 것. 그리고 SQL의 결과는 한 건이 아니라 여러 건이기 때문에 rownum = 1 조건을 사용할 수 없으므로 역정규화를 하여 종료일자를 추가하는 것이 성능상 유리하다는 의견이 있었다. 이것이 사실일까?

 

환경 Oracle11g R2

테스트를 위하여 object를 생성하고 통계정보를 수집한다.   

 

CREATE TABLE CUST_HIST AS    --고객이력

SELECT A.CUST_NO, B.*

  FROM ( SELECT LEVEL AS  CUST_NO

          FROM DUAL

          CONNECT BY LEVEL <= 50) A,

       ( SELECT SYSDATE - level AS start_dt, --시작일시

                SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

                '종료일자의 필요성 테스트' as txt

           FROM DUAL

        CONNECT BY LEVEL <= 2000) B;

       

ALTER TABLE CUST_HIST ADD CONSTRAINT PK_CUST_HIST PRIMARY KEY (CUST_NO, START_DT) USING INDEX;

CREATE INDEX IX_CUST_HIST_01 ON TLO.CUST_HIST (CUST_NO, END_DT, START_DT) ;

       

CREATE TABLE ACCT_HIST AS     -- 계정이력

SELECT A.*, B.*

  FROM ( SELECT LEVEL AS  ACCT_NO

          FROM DUAL

          CONNECT BY LEVEL <= 50) A,

       ( SELECT SYSDATE - level AS start_dt, --시작일시

                SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

                '종료일자의 필요성 테스트' as txt

           FROM DUAL

        CONNECT BY LEVEL <= 2000) B;

      

ALTER TABLE ACCT_HIST ADD CONSTRAINT PK_ACCT_HIST PRIMARY KEY (ACCT_NO, START_DT) USING INDEX;

CREATE INDEX IX_ACCT_HIST_01 ON ACCT_HIST (ACCT_NO, END_DT, START_DT) ;

       

CREATE TABLE SVC AS         --서비스

SELECT *

  FROM ( SELECT LEVEL AS svc_no,

                TRUNC(dbms_random.value(1,51)) AS CUST_NO,

                TRUNC(dbms_random.value(1,51))  AS ACCT_NO,

                SYSDATE - level + 1 - 0.5 AS SVC_DATE, --서비스 가입일시

                '종료일자의 필요성 테스트' as txt

           FROM DUAL CONNECT BY LEVEL <= 2000) A ;

          

ALTER TABLE SVC ADD CONSTRAINT PK_SVC PRIMARY KEY (SVC_NO) USING INDEX;

CREATE INDEX IX_SVC_01 ON SVC (SVC_DATE) ;

 

CREATE TABLE SVC_HIST AS   --서비스이력

SELECT A.svc_no, B.*

  FROM ( SELECT svc_no

           FROM SVC) A,

       ( SELECT SYSDATE - level AS start_dt, --시작일시

                SYSDATE - level + 1 - 1/24/60/60 AS end_dt, --종료일시

                '종료일자의 필요성 테스트' as txt

           FROM DUAL

        CONNECT BY LEVEL <= 2000) B;

       

ALTER TABLE SVC_HIST ADD CONSTRAINT PK_SVC_HIST PRIMARY KEY (SVC_NO, START_DT) USING INDEX NOLOGGING; 

CREATE INDEX IX_SVC_HIST_01 ON SVC_HIST (SVC_NO, END_DT, START_DT) NOLOGGING;      

 

begin

    dbms_stats.gather_table_stats(user, 'SVC_HIST', cascade => true);

    dbms_stats.gather_table_stats(user, 'CUST_HIST', cascade => true);

    dbms_stats.gather_table_stats(user, 'ACCT_HIST', cascade => true);

    dbms_stats.gather_table_stats(user, 'SVC', cascade => true);

end;

 

이제 테스트를 수행해보자. 종료일자 + 시작일자 인덱스의 장점은 최근 데이터를 구할 때 효율적이다. 따라서 종료일자 + 시작일자 인덱스를 이용하여 비교적 최근 데이터 200 건을 조회해보자. 종료일자 + 시작일자 인덱스를 강제로 사용하기 위해 힌트를 사용하였다.

 

SELECT /*+ USE_NL(A B C D) INDEX(A IX_SVC_01) INDEX(B IX_SVC_HIST_01)
           INDEX(C IX_ACCT_HIST_01) INDEX(D IX_CUST_HIST_01) */

       a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

  FROM svc a, svc_hist b, acct_hist c, cust_hist d

 WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1

   AND b.svc_no = a.svc_no

   AND d.cust_no = a.cust_no

   AND c.acct_no = a.acct_no

   AND a.svc_date BETWEEN b.start_dt AND b.end_dt

   AND a.svc_date BETWEEN c.start_dt AND c.end_dt

   AND a.svc_date BETWEEN d.start_dt AND d.end_dt

   AND b.txt > ' '

   AND c.txt > ' '

   AND d.txt > ' ' ;

 

--------------------------------------------------------------------------------------------------------------

| Id  | Operation                        | Name            | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

--------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                 |                 |      1 |        |    200 |00:00:00.04 |    1937 |

|*  1 |  FILTER                          |                 |      1 |        |    200 |00:00:00.04 |    1937 |

|   2 |   NESTED LOOPS                   |                 |      1 |        |    200 |00:00:00.04 |    1937 |

|   3 |    NESTED LOOPS                  |                 |      1 |    180M|    200 |00:00:00.09 |    1738 |

|   4 |     NESTED LOOPS                 |                 |      1 |   1868K|    200 |00:00:00.04 |    1352 |

|   5 |      NESTED LOOPS                |                 |      1 |  19399 |    200 |00:00:00.02 |     783 |

|   6 |       TABLE ACCESS BY INDEX ROWID| SVC             |      1 |    201 |    200 |00:00:00.01 |       7 |

|*  7 |        INDEX RANGE SCAN          | IX_SVC_01       |      1 |    201 |    200 |00:00:00.01 |       4 |

|*  8 |       TABLE ACCESS BY INDEX ROWID| SVC_HIST        |    200 |     96 |    200 |00:00:00.02 |     776 |

|*  9 |        INDEX RANGE SCAN          | IX_SVC_HIST_01  |    200 |     96 |    200 |00:00:00.01 |     576 |

|* 10 |      TABLE ACCESS BY INDEX ROWID | ACCT_HIST       |    200 |     96 |    200 |00:00:00.02 |     569 |

|* 11 |       INDEX RANGE SCAN           | IX_ACCT_HIST_01 |    200 |     96 |    200 |00:00:00.01 |     371 |

|* 12 |     INDEX RANGE SCAN             | IX_CUST_HIST_01 |    200 |     96 |    200 |00:00:00.01 |     386 |

|* 13 |    TABLE ACCESS BY INDEX ROWID   | CUST_HIST       |    200 |     96 |    200 |00:00:00.01 |     199 |

--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(SYSDATE@!-201<=SYSDATE@!-1)

   7 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

   8 - filter("B"."TXT">' ')

   9 - access("B"."SVC_NO"="A"."SVC_NO" AND "B"."END_DT">=SYSDATE@!-201 AND "B"."END_DT" IS NOT NULL)

       filter(("B"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="B"."START_DT" AND

              "A"."SVC_DATE"<="B"."END_DT"))

  10 - filter("C"."TXT">' ')

  11 - access("C"."ACCT_NO"="A"."ACCT_NO" AND "C"."END_DT">=SYSDATE@!-201 AND "C"."END_DT" IS NOT

              NULL)

       filter(("C"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="C"."START_DT" AND

              "A"."SVC_DATE"<="C"."END_DT"))

  12 - access("D"."CUST_NO"="A"."CUST_NO" AND "D"."END_DT">=SYSDATE@!-201 AND "D"."END_DT" IS NOT

              NULL)

       filter(("D"."START_DT"<=SYSDATE@!-1 AND "A"."SVC_DATE">="D"."START_DT" AND

              "A"."SVC_DATE"<="D"."END_DT"))

  13 - filter("D"."TXT">' ')

 

1937 블럭을 Scan하였다. 수행시간도 1초미만으로 최적이다. 그럼 이제 최근 데이터가 아닌 오래된 데이터를 구해보자. 종료일자 + 시작일자 인덱스의 단점은 오래된 데이터를 구할 때 드러난다.

 

SELECT /*+ USE_NL(A B C D) INDEX(A IX_SVC_01) INDEX(B IX_SVC_HIST_01)
           INDEX(C IX_ACCT_HIST_01) INDEX(D IX_CUST_HIST_01) */

       a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

  FROM svc a, svc_hist b, acct_hist c, cust_hist d

 WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799 -- 오래된 데이터 조회

   AND b.svc_no = a.svc_no

   AND d.cust_no = a.cust_no

   AND c.acct_no = a.acct_no

   AND a.svc_date BETWEEN b.start_dt AND b.end_dt

   AND a.svc_date BETWEEN c.start_dt AND c.end_dt

   AND a.svc_date BETWEEN d.start_dt AND d.end_dt

   AND b.txt > ' '

   AND c.txt > ' '

   AND d.txt > ' ' ;

 

--------------------------------------------------------------------------------------------------------------

| Id  | Operation                        | Name            | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

--------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                 |                 |      1 |        |    200 |00:00:02.15 |    6498 |

|*  1 |  FILTER                          |                 |      1 |        |    200 |00:00:02.15 |    6498 |

|   2 |   NESTED LOOPS                   |                 |      1 |        |    200 |00:00:02.15 |    6498 |

|   3 |    NESTED LOOPS                  |                 |      1 |    182M|    200 |00:00:01.31 |    6301 |

|   4 |     NESTED LOOPS                 |                 |      1 |   1889K|    200 |00:00:01.21 |    4425 |

|   5 |      NESTED LOOPS                |                 |      1 |  19528 |    200 |00:00:01.11 |    2344 |

|   6 |       TABLE ACCESS BY INDEX ROWID| SVC             |      1 |    202 |    200 |00:00:00.01 |       7 |

|*  7 |        INDEX RANGE SCAN          | IX_SVC_01       |      1 |    202 |    200 |00:00:00.01 |       3 |

|*  8 |       TABLE ACCESS BY INDEX ROWID| SVC_HIST        |    200 |     97 |    200 |00:00:00.77 |    2337 |

|*  9 |        INDEX RANGE SCAN          | IX_SVC_HIST_01  |    200 |     97 |    200 |00:00:00.65 |    2137 |

|* 10 |      TABLE ACCESS BY INDEX ROWID | CUST_HIST       |    200 |     97 |    200 |00:00:00.09 |    2081 |

|* 11 |       INDEX RANGE SCAN           | IX_CUST_HIST_01 |    200 |     97 |    200 |00:00:00.09 |    1887 |

|* 12 |     INDEX RANGE SCAN             | IX_ACCT_HIST_01 |    200 |     97 |    200 |00:00:00.09 |    1876 |

|* 13 |    TABLE ACCESS BY INDEX ROWID   | ACCT_HIST       |    200 |     97 |    200 |00:00:00.01 |     197 |

--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

   7 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

   8 - filter("B"."TXT">' ')

   9 - access("B"."SVC_NO"="A"."SVC_NO" AND "B"."END_DT">=SYSDATE@!-1999 AND "B"."END_DT" IS NOT NULL)

       filter(("B"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="B"."START_DT" AND

              "A"."SVC_DATE"<="B"."END_DT"))

  10 - filter("D"."TXT">' ')

  11 - access("D"."CUST_NO"="A"."CUST_NO" AND "D"."END_DT">=SYSDATE@!-1999 AND "D"."END_DT" IS NOT NULL)

       filter(("D"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="D"."START_DT" AND

              "A"."SVC_DATE"<="D"."END_DT"))

  12 - access("C"."ACCT_NO"="A"."ACCT_NO" AND "C"."END_DT">=SYSDATE@!-1999 AND "C"."END_DT" IS NOT NULL)

       filter(("C"."START_DT"<=SYSDATE@!-1799 AND "A"."SVC_DATE">="C"."START_DT" AND

              "A"."SVC_DATE"<="C"."END_DT"))

  13 - filter("C"."TXT">' ')

 

무려 6498 블럭을 Scan 하였다. 3배 이상 느려져서 수행시간도 2초가 넘어버렸다. 물론 오래된 데이터를 자주 사용하지 않는다면 피해가 줄어들 것이다. 하지만 가끔이라도 오래된 데이터를 조회한다면 Timeout이 발생할 수 있다. 즉 성능을 위해 종료일자 컬럼을 추가하였지만 시점이 언제인가에 따라 성능이 더 느려질 수 있다는 것이다. 이 예제에서는 오래된 데이터를 2005년도로 가정하고 조회하였다. 현실에서는 2005년이면 그리 오래된 것이 아닐 수도 있다. 만약 테스트 데이터를 더 많이 만들어 2000년도 이전 데이터를 조회한다면 더 느려질 것이다.

 

그럼 이 문제를 어떻게 해결할 거니?

먼저 type을 하나 만들자. 이제부터는 종료일자 컬럼은 없다고 가정한다. 그리고 인덱스도 시작일자 인덱스만 사용한다.

 

CREATE OR REPLACE TYPE hist_type AS OBJECT

(b_st_dt date,

 b_txt      char(24),

 c_st_dt date,

 c_txt      char(24),

 d_st_dt date,

 d_txt      char(24) );

/        

        

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       a.h.b_st_dt, a.h.b_txt, a.h.c_st_dt, a.h.c_txt, a.h.d_st_dt, a.h.d_txt

  FROM (SELECT a.*,

               (SELECT hist_type(b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt)

                  FROM ( SELECT * FROM svc_hist  b ORDER BY start_dt DESC) b, --변경이력1

                       ( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c, --변경이력2

                       ( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d  --변경이력3 

                 WHERE b.svc_no = a.svc_no

                   AND b.start_dt <= a.svc_date

                   AND b.txt > ' '

                   AND c.cust_no = a.cust_no

                   AND c.start_dt <= a.svc_date

                   AND c.txt > ' '

                   AND d.acct_no = a.acct_no

                   AND d.start_dt <= a.svc_date

                   AND d.txt > ' '

                   AND ROWNUM = 1) AS h                                      -- ROWNUM 사용

          FROM svc a

         WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1) a ;

 

위의 SQL이 복잡해 보이지만 스칼라 서브쿼리에 집중해 주기 바란다. 스칼라 서브쿼리 내부의 인라인뷰는 변경이력 테이블들이다. 여러 개의 서로 다른 변경이력 테이블을 조회한다고 해도 from 절에 인라인뷰를 계속 추가하면 된다. 위의 예제에서는 변경이력을 3개만 사용하였다. 그리고 여러 건을 조회할 때에도 rownum을 사용할 수 있음을 알 수 있다. 여기서 인라인뷰에 order by를 사용한 것은 Index_desc 힌트와 rownum = 1 조합은 안전한가? 에서 언급된 order by가 적용된 인라인뷰와 rownum의 원리를 이용한 것이다. 그리고 FPD(Filter Push Down : 조건이 뷰 내부로 파고듦)을 활용한 것이다.

 

-----------------------------------------------------------------------------------------------------------

| Id  | Operation                        | Name         | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                 |              |      1 |        |    200 |00:00:00.01 |       7 |

|*  1 |  COUNT STOPKEY                   |              |    200 |        |    200 |00:00:00.02 |    2006 |

|   2 |   NESTED LOOPS                   |              |    200 |      1 |    200 |00:00:00.01 |    2006 |

|   3 |    NESTED LOOPS                  |              |    200 |      1 |    200 |00:00:00.01 |    1202 |

|   4 |     VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     600 |

|*  5 |      TABLE ACCESS BY INDEX ROWID | CUST_HIST    |    200 |    100 |    200 |00:00:00.01 |     600 |

|*  6 |       INDEX RANGE SCAN DESCENDING| PK_CUST_HIST |    200 |     18 |    200 |00:00:00.01 |     400 |

|   7 |     VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     602 |

|*  8 |      TABLE ACCESS BY INDEX ROWID | ACCT_HIST    |    200 |    100 |    200 |00:00:00.01 |     602 |

|*  9 |       INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST |    200 |     18 |    200 |00:00:00.01 |     402 |

|  10 |    VIEW                          |              |    200 |      1 |    200 |00:00:00.01 |     804 |

|* 11 |     TABLE ACCESS BY INDEX ROWID  | SVC_HIST     |    200 |    100 |    200 |00:00:00.01 |     804 |

|* 12 |      INDEX RANGE SCAN DESCENDING | PK_SVC_HIST  |    200 |     18 |    200 |00:00:00.01 |     604 |

|* 13 |  FILTER                          |              |      1 |        |    200 |00:00:00.01 |       7 |

|  14 |   TABLE ACCESS BY INDEX ROWID    | SVC          |      1 |    201 |    200 |00:00:00.01 |       7 |

|* 15 |    INDEX RANGE SCAN              | IX_SVC_01    |      1 |    201 |    200 |00:00:00.05 |       4 |

-----------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   5 - filter("C"."TXT">' ')

   6 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

   8 - filter("D"."TXT">' ')

   9 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

  11 - filter("B"."TXT">' ')

  12 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

  13 - filter(SYSDATE@!-201<=SYSDATE@!-1)

  15 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

 

성능 또한 최적이다. 물론 종료일자 + 시작일자 인덱스에 비해 조금 많은 블럭을 Scan 하였지만 무시할 수 있는 정도이다. 이 정도면 종료일자 + 시작일자 인덱스 보다 우월하다. 그 이유는 오래된 데이터를 조회 할 때에도 성능이 동일 하다는 것이다. 아래의 SQL을 보자. 

 

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       a.h.b_st_dt, a.h.b_txt, a.h.c_st_dt, a.h.c_txt, a.h.d_st_dt, a.h.d_txt

  FROM (SELECT a.*,

               (SELECT hist_type(b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt)

                  FROM ( SELECT * FROM svc_hist  b ORDER BY start_dt DESC) b,

                       ( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

                       ( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d  

                 WHERE b.svc_no = a.svc_no

                   AND b.start_dt <= a.svc_date

                   AND b.txt > ' '

                   AND c.cust_no = a.cust_no

                   AND c.start_dt <= a.svc_date

                   AND c.txt > ' '

                   AND d.acct_no = a.acct_no

                   AND d.start_dt <= a.svc_date

                   AND d.txt > ' '

                   AND ROWNUM = 1) AS h

          FROM svc a

         WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799) a ;

 

-----------------------------------------------------------------------------------------------------------

| Id  | Operation                        | Name         | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                 |              |      1 |        |    200 |00:00:00.01 |       7 |

|*  1 |  COUNT STOPKEY                   |              |    200 |        |    200 |00:00:00.02 |    2004 |

|   2 |   NESTED LOOPS                   |              |    200 |      1 |    200 |00:00:00.01 |    2004 |

|   3 |    NESTED LOOPS                  |              |    200 |      1 |    200 |00:00:00.01 |    1202 |

|   4 |     VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     602 |

|*  5 |      TABLE ACCESS BY INDEX ROWID | CUST_HIST    |    200 |    100 |    200 |00:00:00.01 |     602 |

|*  6 |       INDEX RANGE SCAN DESCENDING| PK_CUST_HIST |    200 |     18 |    200 |00:00:00.01 |     402 |

|   7 |     VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     600 |

|*  8 |      TABLE ACCESS BY INDEX ROWID | ACCT_HIST    |    200 |    100 |    200 |00:00:00.01 |     600 |

|*  9 |       INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST |    200 |     18 |    200 |00:00:00.01 |     400 |

|  10 |    VIEW                          |              |    200 |      1 |    200 |00:00:00.01 |     802 |

|* 11 |     TABLE ACCESS BY INDEX ROWID  | SVC_HIST     |    200 |    100 |    200 |00:00:00.01 |     802 |

|* 12 |      INDEX RANGE SCAN DESCENDING | PK_SVC_HIST  |    200 |     18 |    200 |00:00:00.01 |     602 |

|* 13 |  FILTER                          |              |      1 |        |    200 |00:00:00.01 |       7 |

|  14 |   TABLE ACCESS BY INDEX ROWID    | SVC          |      1 |    202 |    200 |00:00:00.01 |       7 |

|* 15 |    INDEX RANGE SCAN              | IX_SVC_01    |      1 |    202 |    200 |00:00:00.01 |       3 |

-----------------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   5 - filter("C"."TXT">' ')

   6 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

   8 - filter("D"."TXT">' ')

   9 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

  11 - filter("B"."TXT">' ')

  12 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

  13 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

  15 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

 

예전 데이터를 조회할 때에도 성능이 동일함을 알 수 있다. 이것은 매우 중요한 관점이다. 같은 SQL을 실행함에도 매우 느릴때가 있고, 매우 빠를 때가 있다면 그 SQL의 성능은 불안정하다고 할 수 있다. 이로써 이전 글에서 이슈가 되었던 여러 건을 조회할 때에도 종료일자는 필요 없음을 알 수 있다. 물론 SQL이 몇 줄 길어지긴 했지만 그 이유 때문에 역정규화의 단점인 데이터의 정합성을 해칠 수는 없는 일이다. SQL이 몇 줄 늘어나더라도 이렇게 사용해야 하는 이유는 또 있다.


역정규화할때 필요한 정합성을 체크하는 프로그램의 길이를 생각하면 몇 줄의 손해는 아무것도 아니다. 여기에 더하여 정합성을 보정하는 프로그램도 필요하므로 위의 몇 줄이 추가된 SQL이 손해라고 생각할 수는 없다. 또한 위의 SQL이 어려운 전문가용 SQL이라고 생각 하지는 않는다. 

 

우리는 Type을 쓸 수 없다

만약 type을 이용할 수 없는 환경이라면 아래의 SQL을 이용해야 한다. 비슷한 유형이지만 이 경우는 변경이력 테이블을 두 번 Scan하는 비효율을 감안해야 한다. 물론 이때에도 rownum = 1은 사용할 수 있다. 먼저 최근의 데이터를 조회한다.

 

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

  FROM (SELECT a.*,

               (SELECT b.rowid||c.rowid||d.rowid as rid

                  FROM ( SELECT * FROM svc_hist  b ORDER BY start_dt DESC) b,

                       ( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

                       ( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d   

                 WHERE b.svc_no = a.svc_no

                   AND b.start_dt <= a.svc_date

                   AND b.txt > ' '

                   AND c.cust_no = a.cust_no

                   AND c.start_dt <= a.svc_date

                   AND c.txt > ' '

                   AND d.acct_no = a.acct_no

                   AND d.start_dt <= a.svc_date

                   AND d.txt > ' '

                   AND ROWNUM = 1) AS rid

          FROM svc a

         WHERE a.svc_date BETWEEN SYSDATE - 201 AND SYSDATE - 1 ) a,

       svc_hist b, cust_hist C, acct_hist D 

 WHERE SUBSTR(A.RID, 1,                     LENGTH(A.RID)/3) = B.ROWID

   AND SUBSTR(A.RID, LENGTH(A.RID)/3 + 1,   LENGTH(A.RID)/3) = C.ROWID

   AND SUBSTR(A.RID, 2*LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = D.ROWID ;

  

------------------------------------------------------------------------------------------------------------

| Id  | Operation                         | Name         | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                  |              |      1 |        |    200 |00:00:00.02 |    2610 |

|   1 |  NESTED LOOPS                     |              |      1 |   8040G|    200 |00:00:00.02 |    2610 |

|*  2 |   COUNT STOPKEY                   |              |    200 |        |    200 |00:00:00.01 |    2006 |

|   3 |    NESTED LOOPS                   |              |    200 |      1 |    200 |00:00:00.01 |    2006 |

|   4 |     NESTED LOOPS                  |              |    200 |      1 |    200 |00:00:00.01 |    1202 |

|   5 |      VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     600 |

|*  6 |       TABLE ACCESS BY INDEX ROWID | CUST_HIST    |    200 |    100 |    200 |00:00:00.01 |     600 |

|*  7 |        INDEX RANGE SCAN DESCENDING| PK_CUST_HIST |    200 |     18 |    200 |00:00:00.01 |     400 |

|   8 |      VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     602 |

|*  9 |       TABLE ACCESS BY INDEX ROWID | ACCT_HIST    |    200 |    100 |    200 |00:00:00.01 |     602 |

|* 10 |        INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST |    200 |     18 |    200 |00:00:00.01 |     402 |

|  11 |     VIEW                          |              |    200 |      1 |    200 |00:00:00.01 |     804 |

|* 12 |      TABLE ACCESS BY INDEX ROWID  | SVC_HIST     |    200 |    100 |    200 |00:00:00.01 |     804 |

|* 13 |       INDEX RANGE SCAN DESCENDING | PK_SVC_HIST  |    200 |     18 |    200 |00:00:00.01 |     604 |

|  14 |   NESTED LOOPS                    |              |      1 |    201M|    200 |00:00:00.02 |    2410 |

|  15 |    NESTED LOOPS                   |              |      1 |    201K|    200 |00:00:00.02 |    2212 |

|  16 |     VIEW                          |              |      1 |    201 |    200 |00:00:00.02 |    2013 |

|* 17 |      FILTER                       |              |      1 |        |    200 |00:00:00.01 |       7 |

|  18 |       TABLE ACCESS BY INDEX ROWID | SVC          |      1 |    201 |    200 |00:00:00.01 |       7 |

|* 19 |        INDEX RANGE SCAN           | IX_SVC_01    |      1 |    201 |    200 |00:00:00.01 |       4 |

|  20 |     TABLE ACCESS BY USER ROWID    | CUST_HIST    |    200 |   1000 |    200 |00:00:00.01 |     199 |

|  21 |    TABLE ACCESS BY USER ROWID     | ACCT_HIST    |    200 |   1000 |    200 |00:00:00.01 |     198 |

|  22 |   TABLE ACCESS BY USER ROWID      | SVC_HIST     |    200 |  40000 |    200 |00:00:00.01 |     200 |

------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   2 - filter(ROWNUM=1)

   6 - filter("C"."TXT">' ')

   7 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

   9 - filter("D"."TXT">' ')

  10 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

  12 - filter("B"."TXT">' ')

  13 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

  17 - filter(SYSDATE@!-201<=SYSDATE@!-1)

  19 - access("A"."SVC_DATE">=SYSDATE@!-201 AND "A"."SVC_DATE"<=SYSDATE@!-1)

 

변경이력에서 단 하나의 컬럼만 조회할 때는 위의 방법을 사용할 필요가 없다. rowid 대신에 값을 select 하면 된다. 따라서 비효율도 없다. 하지만 변경이력에서 여러 컬럼을 조회해야 한다면 위의 방법처럼 rowid를 사용해야 한다. 그렇게 되면 변경이력 테이블은 두 번씩 액세스 하는 셈이다. 하지만 이때에도 인덱스는 두 번 Scan 하지 않는다. 이제 성능의 안정성을 보기 위해 오래된 데이터를 조회해 보자.   

  

SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt,

       b.start_dt, b.txt, c.start_dt, c.txt, d.start_dt, d.txt

  FROM (SELECT a.*,

               (SELECT b.rowid||c.rowid||d.rowid as rid

                  FROM ( SELECT * FROM svc_hist  b ORDER BY start_dt DESC) b,

                       ( SELECT * FROM cust_hist c ORDER BY start_dt DESC) c,

                       ( SELECT * FROM acct_hist d ORDER BY start_dt DESC) d   

                 WHERE b.svc_no = a.svc_no

                   AND b.start_dt <= a.svc_date

                   AND b.txt > ' '

                   AND c.cust_no = a.cust_no

                   AND c.start_dt <= a.svc_date

                   AND c.txt > ' '

                   AND d.acct_no = a.acct_no

                   AND d.start_dt <= a.svc_date

                   AND d.txt > ' '

                   AND ROWNUM = 1) AS rid

          FROM svc a

         WHERE a.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799 ) a,

       svc_hist b, cust_hist C, acct_hist D 

 WHERE SUBSTR(A.RID, 1,                     LENGTH(A.RID)/3) = B.ROWID

   AND SUBSTR(A.RID, LENGTH(A.RID)/3 + 1,   LENGTH(A.RID)/3) = C.ROWID

   AND SUBSTR(A.RID, 2*LENGTH(A.RID)/3 + 1, LENGTH(A.RID)/3) = D.ROWID;

 

------------------------------------------------------------------------------------------------------------

| Id  | Operation                         | Name         | Starts | E-Rows | A-Rows |   A-Time   | Buffers |

------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                  |              |      1 |        |    200 |00:00:00.02 |    2602 |

|   1 |  NESTED LOOPS                     |              |      1 |   8080G|    200 |00:00:00.02 |    2602 |

|*  2 |   COUNT STOPKEY                   |              |    200 |        |    200 |00:00:00.02 |    2004 |

|   3 |    NESTED LOOPS                   |              |    200 |      1 |    200 |00:00:00.01 |    2004 |

|   4 |     NESTED LOOPS                  |              |    200 |      1 |    200 |00:00:00.01 |    1202 |

|   5 |      VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     602 |

|*  6 |       TABLE ACCESS BY INDEX ROWID | CUST_HIST    |    200 |    100 |    200 |00:00:00.01 |     602 |

|*  7 |        INDEX RANGE SCAN DESCENDING| PK_CUST_HIST |    200 |     18 |    200 |00:00:00.01 |     402 |

|   8 |      VIEW                         |              |    200 |      1 |    200 |00:00:00.01 |     600 |

|*  9 |       TABLE ACCESS BY INDEX ROWID | ACCT_HIST    |    200 |    100 |    200 |00:00:00.01 |     600 |

|* 10 |        INDEX RANGE SCAN DESCENDING| PK_ACCT_HIST |    200 |     18 |    200 |00:00:00.01 |     400 |

|  11 |     VIEW                          |              |    200 |      1 |    200 |00:00:00.01 |     802 |

|* 12 |      TABLE ACCESS BY INDEX ROWID  | SVC_HIST     |    200 |    100 |    200 |00:00:00.01 |     802 |

|* 13 |       INDEX RANGE SCAN DESCENDING | PK_SVC_HIST  |    200 |     18 |    200 |00:00:00.01 |     602 |

|  14 |   NESTED LOOPS                    |              |      1 |    202M|    200 |00:00:00.03 |    2402 |

|  15 |    NESTED LOOPS                   |              |      1 |    202K|    200 |00:00:00.02 |    2205 |

|  16 |     VIEW                          |              |      1 |    202 |    200 |00:00:00.02 |    2011 |

|* 17 |      FILTER                       |              |      1 |        |    200 |00:00:00.01 |       7 |

|  18 |       TABLE ACCESS BY INDEX ROWID | SVC          |      1 |    202 |    200 |00:00:00.01 |       7 |

|* 19 |        INDEX RANGE SCAN           | IX_SVC_01    |      1 |    202 |    200 |00:00:00.01 |       3 |

|  20 |     TABLE ACCESS BY USER ROWID    | CUST_HIST    |    200 |   1000 |    200 |00:00:00.01 |     194 |

|  21 |    TABLE ACCESS BY USER ROWID     | ACCT_HIST    |    200 |   1000 |    200 |00:00:00.01 |     197 |

|  22 |   TABLE ACCESS BY USER ROWID      | SVC_HIST     |    200 |  40000 |    200 |00:00:00.01 |     200 |

------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   2 - filter(ROWNUM=1)

   6 - filter("C"."TXT">' ')

   7 - access("C"."CUST_NO"=:B1 AND "C"."START_DT"<=:B2)

   9 - filter("D"."TXT">' ')

  10 - access("D"."ACCT_NO"=:B1 AND "D"."START_DT"<=:B2)

  12 - filter("B"."TXT">' ')

  13 - access("B"."SVC_NO"=:B1 AND "B"."START_DT"<=:B2)

  17 - filter(SYSDATE@!-1999<=SYSDATE@!-1799)

  19 - access("A"."SVC_DATE">=SYSDATE@!-1999 AND "A"."SVC_DATE"<=SYSDATE@!-1799)

 

이번에는 같은 방법으로 오래된 데이터를 조회 해보았지만 성능은 역시 안정적이다. 최근 데이터를 조회할 때는 종료일자 + 시작일자 인덱스가 1937 블럭을 Scan하였고 위의 SQL 에서는 2602블럭을 Scan 하였으므로 좋지 않다고 생각할 수 있다. 하지만 오래된 데이터를 구할 때 종료일자 + 시작일자 인덱스가 6498 블럭이나 Scan 하였다는 점을 생각하면 같은 테이블들을 두번씩이나 사용했음에도 성능에서 우열을 가리기 힘들다.

 

결론

변경이력을 Between 으로 조인해서 여러 건을 조회할 때에도 종료일자의 장점은 찾기 힘들므로 변경일자(시작일자)만 사용하면 된다. 어찌되었건 현재와 같은 무조건적인 종료일자의 사용은 자제해야 한다. 역정규화를 하거나 하지 않는 것은 당신의 자유다. 그리고 변경이력에 종료일자를 추가하여 역정규화 하는 것은 정합성 측면에서는 손실이지만 장점도 있다. 하지만 그것은 성능이 아니라 SQL이 간단해진다는 관점이 아닐까? 몇 배나 단순해질지가 문제이긴 하지만.... 

 

PS

이 글을 보고 성급하게 운영중인 테이블을 건드리면 안 된다. 제발 운영중인 테이블과 인덱스는 그냥 두기 바란다. 만약 역정규화를 제거하려면 다음 번 모델링 시에 반영하기 바란다. 그것이 아니라면 철저히 준비하고 실행하기 바란다.

 

현실세계의 모든 문제를 해결할 수 있는 글이란 없다. 그러므로 시작일자 컬럼만으로 해결하기 어려운 또 다른 패턴의 SQL이 있다면 나에게 알려주기 바란다. 그래야 더 많은 문제가 해결 될 터이니. 시작일자만으로 구현하기 어려운 SQL들도 결국은 몇 개의 패턴으로 정리되지 않을까 생각해본다.  


신고
Posted by extremedb

댓글을 달아 주세요

  1. 선분이력 2010.11.24 11:45 신고  댓글주소  수정/삭제  댓글쓰기

    TYPE 까지 써 가며 새로운 해법을 찾으려고 노력하셨지만, 선분이력의 장점이 오히려 부각된 거 같습니다. 만약 종료일자(end_dt)를 시작일자(start_dt)보다 앞에 두었는데 오래된 과거 데이터를 조회해야 할 일이 생기면, 아래와 같이 쿼리하면 됩니다. ROWID를 활용하므로 변경이력을 두번씩 액세스하지 않아도 됩니다. (약간 복잡해지긴 했지만 오동규 님이 제시한 쿼리 정도의 복잡성입니다. 종료일자를 시작일자 앞에 두었다는 것은 대부분 최근 데이터 위주로 조회한다는 가정이므로 아래와 같이 써야 할 일은 흔지 않습니다. TYPE을 미리 선언할 필요도 없습니다.)

    SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt, b.col1, b.col2, b.col_n, c.col1, c.col2, c.col_n, d.col1, d.col2, d.col_n
    FROM (SELECT x.svc_no, x.cust_no, x.acct_no, x.svc_date, x.txt
    ,(select /*+ index(b) */ rowid from svc_hist b where svc_no = x.svc_no and end_dt >= x.svc_date and rownum <= 1) b_rid
    ,(select /*+ index(c) */ rowid from cust_hist c where cust_no = x.cust_no and end_dt >= x.svc_date and rownum <= 1) c_rid
    ,(select /*+ index(d) */ rowid from acct_hist d where acct_no = x.acct_no and end_dt >= x.svc_date and rownum <= 1) d_rid
    FROM svc x
    WHERE x.svc_date BETWEEN SYSDATE - 1999 AND SYSDATE - 1799) ) a, svc_hist b, cust_hist c, acct_hist d
    WHERE b.rowid = b_rid
    AND c.rowid = c_rid
    AND d.rowid = d_rid;

    "index(또는 index_desc) 힌트 및 rownum <= 1 조건을 써선 안 된다"고 선언(이전 이전 글)하고서 선분이력의 성능 문제를 풀어 보려니 더 꼬이는 거 같습니다. 이력 테이블 PK 구조를 바꿀 일이 과연 있을까요? 0%는 아니겠지만, 정말 흔치 않은 일이므로 "약간의 관리적 부담이 생길 수 있다"로 코멘트하고서 그냥 index(또는 index_desc) 힌트 및 rownum <= 1 조건을 쓰는 게 낫지 않을까요? 단, first_rows 오퍼레이션이 정상적으로 작동하는 경우엔 가급적 그것을 활용하자!!
    판단은 독자들의 몫이겠죠.^^;

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.25 00:29 신고  댓글주소  수정/삭제

      반갑습니다.
      여기 예제에서 보듯이 여러건을 조회할 때에도 종료일자의 성능상 장점은 없습니다. 다른 유형의 SQL을 연구해보아야 합니다. type까지 쓰며라고 하셨지만 그 노력이 무척 힘들다면 사용을 포기 할 수도 있겠습니다. 하지만 이렇게 조금의 노력을 들인다면 한다면 정합성을 보장하고 성능도 보장합니다. 판단은 말씀하신대로 독자의 몫입니다.

      선분이력님이 이야기 하신 어조는 독자들이 '잘못될 확률이 낮으므로 index_desc + rownum을 사용해야 한다'라고 오해할 수 있습니다.
      그리고 '점이력이 선분이력보다 느리므로 점이력은 역정규화 해야한다. 그리고 역정규화를 해도 정합성이 틀어질 일은 거의 없다' 처럼 들릴 수가 있습니다.
      만약에 그러셨다면 위험한 발언이고 그런 말씀을 한거라고 보지는 않겠습니다.

      제가 지난 10여년간 느낀점이 몇가지 있습니다.
      1.인덱스의 사용유무에 따라 SQL의 답이 틀려지면 안된다.
      2.데이터의 정합성이 중요하므로 성능을 위한 역정규화는 차선책으로 생각하라

      그런데 1,2번에 대하여 다들 수긍하지만 예외적인 것이 3가지가 있는데 그중 2가지가 index_desc + rownum 조합과 변경이력의 역정규화입니다.
      1, 2번을 지킬 수 있다면 지켜야 겠지만 index_desc + rownum 조합과 변경이력 테이블의 역정규화는 마치 1,2번을 만족하지 않아도 되는 특권을 부여한것 처럼 보입니다. 그런데 그 특권이 정당한지 연구해 보자는 것이죠.

      즉 max를 구하기 위해 반사적으로 index_desc + rownum을 사용하는 것을 많이 보았을 것 입니다. 또한 습관적으로 점이력을 선분이력으로 역정규화 하는 것도 마찬가지입니다. 저 또한 예전에 index_desc + rownum 조합과 변경이력 테이블의 역정규화를 즐겨사용 하였습니다. 하지만 그것은 명백한 저의 잘못이었습니다. 저의 실수로 고객에게 위험성을 증가시킨 것 입니다. 원칙을 지킬 수 있다면 지켜야 하며 불가능 할 때만 사용하는 것이 위험을 최소화 할 수 있을 것 입니다.

      수고스럽더라도 다른 예제를 저에게 주시기 바랍니다. 현실적으로 시작일자 만으로 해결하기 어려운 예제들을 모아서 패턴화 시켜 정리하려고 합니다. 이런 패턴들이 모이면 현실세계의 문제들중 많은 부분이 해결 될 겁니다. 만약 10개의 문제중에 8~9개가 풀린다고 하면 역정규화는 1~2개만 해도 될 것입니다. 이런 노력에 보탬이 되주시기 바랍니다. 그러실거라고 믿습니다.

      감사합니다.

    • 선분이력 2010.11.25 07:57 신고  댓글주소  수정/삭제

      이력 테이블 PK 구조가 바뀔 가능성이 없는 경우 관리적 부담을 약간 지면서 그런 SQL 패턴을 허용할 수 있다는 것인데, 자꾸 원론적인 얘기를 하시니 그 부분은 더 이상 논쟁하지 않았으면 합니다. 인덱스 사용여부에 따라 SQL 답이 틀려져도 된다고 생각하는 사람은 아무도 없습니다. 관리적 부담을 진다는 것은 그런 일이 발생하지 않도록 잘 관리하겠단 뜻이지 방치하겠단 뜻이 아닙니다.
      과거 데이터 조회시 성능에 문제가 생긴다면 그런 식으로 풀 수 있다는 것입니다. 정 index 힌트와 rownum 조건을 쓰는 게 싫으면 선분이력도 점이력이라고 생각하고 서브쿼리로 필터링하거나 위에서 제시하신 방식으로 똑같이 성능 문제를 해결할 수 있습니다.
      index(또는 index_desc) 힌트와 rownum 조건을 쓰는 부분에 대해 거부반응을 보이시니 일단 그 패턴은 배제하겠습니다. 시스템이 처한 상황, Mission Critical 여부, 구성원 성향 등에 따라 생각이 다를 수 있으므로...

      여기부터가 오늘의 본론입니다.
      이력을 관리하면 과거 데이터를 조회할 수 있지만, 과거 데이터를 조회하는 일이 흔치는 않습니다. 특히, 오래 전 데이터를 조회하는 일은 거의 없습니다. 과거 데이터를 조회한다고 해 봐야 대개 전일 또는 전월 말일 시점 조회입니다. 오래 전 과거 데이터를 조회하는 일상적인 업무가 무엇인지 한번 떠올려 보십시오. 잘 생각나지 않을 것입니다. 그만큼 흔치 않습니다.

      < Rule of thumb >
      * 최종 이력 조회 = 90%
      * 전일 또는 전월말 시점 조회 = 9%
      * 오래된 과거 이력 조회 = 1%

      이력 테이블을 조회한다고 해도 실제 90%는 가장 마지막 이력 데이터를 조회하는 경우입니다. 점이력이든 선분이력이든 마찬가지입니다.
      점이력 모델에서 가장 마지막 이력을 찾으려면 매번 서브쿼리로 필터링해야 하는 불편함(코딩, 성능)이 있으니까 전통적으로 많이 쓰던 방식이 마지막_여부(LAST_YN) 컬럼을 두는 것입니다. 또는 순번 컬럼에 정해진 값(예를 들면, 9999)을 넣어 두기도 합니다.

      select * from 거래 a, 마스터 b, 마스터이력 c
      where join_condition ...
      and c.last_yn = 'Y'; -- 또는 and c.seq = 9999

      이렇게 할 때의 단점은 이력이 쌓일 때 Insert 뿐만 아니라 Update까지 발생한다는 사실입니다. 그럼에도 그런 속성을 둠으로써 가장 최근 데이터를 빠르게 조회할 수 있으니 그렇게 했던 것이고, 기왕에 Update 할 거면 종료일자를 세팅하자고 아이디어를 낸 것이 선분이력입니다. 가장 마지막 레코드에는 '99991231'를 넣기로 약속한 거구요. 시작일자만을 갖는 점이력에 종료일자 속성을 하나 더 둔 것에 불과하고, 최종 이력을 조회할 때 아래와 같이 하면 됩니다.

      select * from 거래 a, 마스터 b, 마스터이력 c
      where join_condition ...
      and c.end_dt = '99991231';

      이렇게 하니까 과거든 현재든 "쉽게" 찾을 수 있게 된 것입니다. 과거는 아래와 같이 between 조건으로 쿼리합니다.

      select * from 거래 a, 마스터 b, 마스터이력 c
      where join_condition ...
      and '20101031' between c.start_dt and c.end_dt;

      속도요? 최종 이력을 조회할 때는 매우 빠릅니다(90%가 여기에 속함). (종료일자를 선두에 두었을 때를 기준으로 볼 때) 전일 또는 전월 말 시점 조회시 아주 조금 불리하지만 무시할 만한 차이(인덱스에서 몇 개 레코드 더 스캔하는 정도)입니다(9%). 오래된 과거면 꽤 느릴 수 있는데, 다시 말씀드리지만 오래된 과거 데이터를 보는 빈도는 1%도 되지 않습니다.

      역정규화에 대해 굉장히 보수적이신데, 앞선 글에서 무대리님도 언급하신 것처럼 역정규화를 최소화하려면 그만큼 기준성 데이터에 대한 이력 관리가 매우 중요하고 이력 테이블에 대한 조회도 빈번해집니다. 이렇게 중요하고 빈번한 쿼리를 오동규 님께서 제시한 것처럼 복잡하게 쿼리해야 할 일인지 모르겠습니다. TYPE까지 쓰면서 말이죠.
      저 같으면 아래와 같이 하겠습니다.

      1. 우선, 자주 사용되는 "마스터성 정보"에 대한 이력은 선분이력으로 모델링하겠습니다.
      2. 최종 이력은 '=' 조건으로 '99991231'을 조회하고(90%),
      3. 전일 또는 전월말 시점은 between으로 조회하고(9%),
      4. 아주 오래된 과거 이력은 서브쿼리로 필터링하거나 위에 있는 오동규 님 방식으로 쿼리하겠습니다.(1%)
      (※ 개인적으로는, index 힌트와 rownum 조건을 사용하기도 합니다. 아주 오래된 과거 이력을 조회하는 일이 흔하지 않은 데다, 이력 테이블의 PK 구조를 바꾸는 일은 더더욱 없으므로)

      "만약 점이력으로 모델링하면" 100% 서브쿼리로 필터링하거나 위에 있는 방식으로 쿼리해야 합니다. 성능은 동일한데도 말이죠. 1%를 위한 99%의 희생!!

      거래성(주문, 배송, 접수, 상담 등) 데이터의 이력은?
      이 경우에는 선분이력을 써 본 기억이 없습니다. 앞으로도 쓰지 않을 생각이구요. (100% 장담은 못합니다.)

      입력 과정에서 선분의 중복이 생기는 문제는?
      앞 글 답변에서 얘기했듯이 저는 동시성 제어 패턴으로 해결하겠습니다.

      결론적으로, "성능" 때문에 선분이력 모델링 기법의 효용성 자체를 부정해야 할 정도로 과거 데이터를 조회하는 일은 흔지 않습니다. 가끔이지만 오래된 과거 데이터를 조회할 때, 선분이력의 성능이 좋지 않을 수 있으니 "튜닝 차원"에서 가능한 조치들이 무엇인지를 아는 것은 매우 중요합니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.25 13:59 신고  댓글주소  수정/삭제

      공감합니다.
      데이터의 품질을 동시성 제어로 잘 관리하시니 아래의 1,2,3,4 번을 사용하면 성능도 문제가 없고 SQL도 간단해 지겠습니다. 효율적으로 관리될 것 같습니다. ^^

      선분이력님께서 "자꾸 원론적인 얘기를 하시니 ~" 라고 하셨습니다. 이와 관련해서 토론이 길어지는 이유를 생각해봤습니다. 그 이유는 선분이력님과 저의 생각의 방향이 달랐기 때문입니다.

      이 글과 이전 글의 의도는 "정합성이 틀어질 가능성이 있음에도 '성능' 때문에 변경이력을 역정규화 해야 하는지"를 연구하는 것입니다. 정합성, 정규형과 역정규형의 성능을 논하려면 원론적인 이야기를 피할 수 없습니다. 예컨데 제가 위의 댓글에서 이야기한 원칙이 없다면 이런 연구를 할 필요가 없고 그냥 역정규형을 사용하면 되는 것 입니다.
      '발전을 위해 성능을 낱낱이 비교해보자' VS '현재의 이력관리도 문제가 없으므로 그럴 필요없다' 처럼 생각의 방향이 틀린것 같습니다. 둘 다 맞는 말 이지만 방향만 다른 겁니다. 의견의 방향이 다르다고 해서 한쪽의 견해를 틀렸다고 할 수는 없을것 입니다.

      무대리님과 선분이력님의 의견을 들었으므로 제 생각의 방향에서 말씀드리겠습니다. 다른 유형을 더 접해야 하지만 현재까지의 연구결과는 '성능 때문이라면 역정규화가 필요치 않다'는 것 입니다. 만약 역정규형을 사용해야 한다면 SQL의 단순화 때문일 것 입니다. SQL의 간편함은 선분이력을 따라갈 수 없습니다. 전체 개발공정에 큰 영향을 주지는 않겠지만 적어도 이력데이터를 조회하는 프로그램의 생성성에는 영향을 줄것입니다. 이 의견은 사내/사외의 많은 전문가들이 공감을 하고 계십니다. 선분이력님도 공감할 수 있다고 생각합니다.

      이와 관련된 다양한 예제를 수집하고 싶습니다만 그다지 많은 패턴이 나올 것 같지 않을것 입니다. 왜냐하면 단건 조회는 이미 이전글에서 제가 언급하였고, 다른 테이블과 조인으로 여러건 조회하는 패턴도 이글에서 테스트 되었기 때문입니다. 없을것 같지만 또다른 패턴이 있다면 제게 알려주시기 바랍니다.

      그리고 다음 글에서 index_desc + rownum 과 관련해서 실제 발생한 사건을 소개해 드리겠습니다. 알만한 분들은 다알 고 계시는 일화입니다. 물론 index_desc + rownum 조합의 위험성을 알리는 일화 입니다.

      새벽시간에 댓글을 쓰시다니 열정에 감동했습니다.
      앞으로도 좋은 댓글 부탁드립니다.
      감사합니다.

      PS 점심시간을 이용하다 보니 답변시간이 넉넉치 않습니다. 이점 이해바랍니다.^^

    • 선분이력 2010.11.25 15:23 신고  댓글주소  수정/삭제

      저와의 견해차를 아래와 같이 정의하셨습니다.

      '발전을 위해 성능을 낱낱이 비교해보자' VS '현재의 이력관리도 문제가 없으므로 그럴 필요없다'

      좌(左)는 오동규 님이고, 우(右)는 저인 거 같은데, 이렇게 정의하니까 왠지 제가 문제의식이 없는 사람처럼 느껴지는군요. 자격지심인가요? ㅎㅎ

      앞선 글 답변에서도 말씀드렸지만 저도 선분이력의 데이터 정합성 문제(실제 데이터가 많이 깨지고 있다는 측면보다는 트랜잭션이 동시에 발생할 경우 그럴 가능성을 내재하고 있다는 문제) 때문에 고민을 많이 했었고, 성능 측면을 낱낱이 비교했던 사람입니다. 오동규 님이 느낀 문제의식을 저도 똑같이 느꼈고, 그래서 발전 방향을 모색하기 위해 오래 전부터 연구를 했던 겁니다.

      오동규 님도 저도 성능을 낱낱이 비교한 점은 똑같습니다. 다만, 거기서 도출한 최종 결론이 달랐던 거죠.

      < 저의 결론 >
      "발전을 위해 성능을 낱낱이 비교해 본 결과, 동시성 제어를 통해 정합성 부분을 보완하기만 하면 선분방식의 이력관리가 여전히 장점이 많다."입니다.

      < 오동규 님의 결론>
      "발전을 위해 성능을 낱낱이 비교해 본 결과, 정합성이 좋지 않을 뿐만 아니라 성능도 나쁘므로 앞으론 점이력을 써야 한다."입니다.

      논의가 복잡하고 길어질 것 같아 지금까지 언급 안 했는데, 추가로 연구해야 할 패턴이 있냐고 물으시니 하나만 더 말씀드리겠습니다. 지금까지는 소량의 범위 데이터만 읽는 경우를 가정했습니다. 즉, 인덱스 손익분기점 이내의 데이터량을 가정하고 인덱스를 통해 이력 데이터를 액세스하는 경우만 논의했습니다.
      만약 이력 데이터를 참조해야 할 기준 집합이 1,000만 건쯤 된다면, 점이력에서 어떻게 쿼리해야 할까요? 물론 Full Table Scan과 분석함수(Analytic Function)을 써야겠죠. 해 보면 아시겠지만, 이 역시 쿼리가 매우 복잡해집니다. 게다가, 아래 수천 만건의 이력 테이블을 모두 읽어 Sort 해야 하는 성능 부하가 생깁니다.

      * svc : 1,000만건(active_yn = 'Y' 기준)
      * svc_hist : 10,000만건
      * acct_hist : 3,000만건
      * cust_hist : 5,000만건

      아래는 현재 살아있는(activt_yn = 'Y') 모든 서비스의 전월 말 시점 이력을 조회하는 쿼리입니다. svc_hist, acct_hist, cust_hist 셋 다 선분이력이고, Full Table Scan은 불가피하지만 분석함수를 쓰지 않으므로 Sort 부하는 없습니다

      SELECT a.svc_no, a.cust_no, a.acct_no, a.svc_date, a.txt, b.col1, b.col2, b.col_n, c.col1, c.col2, c.col_n, d.col1, d.col2, d.col_n
      FROM svc a, svc_hist b, acct_hist c, cust_hist d
      WHERE a.active_yn = 'Y'
      AND b.svc_no = a.svc_no
      AND d.cust_no = a.cust_no
      AND c.acct_no = a.acct_no
      AND '20101031' between b.start_dt and b.end_dt
      AND '20101031' between c.start_dt and c.end_dt
      AND '20101031' between d.start_dt and d.end_dt
      AND ...


      저는 여기까지만 하겠습니다. 힘드네요.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.25 15:51 신고  댓글주소  수정/삭제

      문제의식이 없는 사람처럼 느껴졌다면 제 실수 입니다. '발전을 위해' 라는 문구가 좋지 않았던 것 같습니다. 사과드립니다. '성능을 낱낱이 비교해보자' VS '현재의 이력관리도 문제가 없으므로 그럴 필요없다'


      제 결론에 "~성능상 특별한 장점이 없으므로 성능문제로 역정규화 할 필요는 없다." 로 수정되어야 합니다. 선분이력님이 말씀하신것 처럼 점이력의 성능이 우월한 것은 아니죠. 말씀하신대로 우월한 것은 1%에 불과합니다. 그 1% 마저도 제 방법대로 다른 프로그램을 하나 더 만든다면 차이는 없어집니다.

      예제 SQL 감사드립니다. 분석함수를 써야 한다고 하셨으므로 종료일자를 출력하는 경우를 가정하고 테스트 하겠습니다.

    • 선분이력 2010.11.25 17:01 신고  댓글주소  수정/삭제

      종료일자는 출력 안 해도 됩니다. 서비스(svc)와 관련된 각종 변경이력에서 전월말('20101031') 시점의 데이터를 뽑는 것이 핵심입니다. 살아있는 모든 서비스에 대해서 말이죠.
      이력 테이블을 2번씩 Full Scan한다면 굳이 분석함수를 쓰지 않아도 되구요.

  2. 2010.11.24 20:26  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  3. 김영석 2013.05.04 10:00 신고  댓글주소  수정/삭제  댓글쓰기

    두 분의 논의에 감사드립니다.
    오히려 두 분의 논의로 인해 많은 정보를 얻고, 도전을 받습니다.
    연구성과를 이렇게 공유해 주시는 오동규님께 감사드립니다.


테스트에 사용할 이력테이블을 현실에 가깝에 만들어서 테스트 해달라는 요청이 있었습니다. 그래서 첨부파일을 따로 올립니다. 고객번호가 테이블과 인덱스에 추가된것을 제외하고 내용은 대동소이합니다. 2010.11.18



-점이력과 선분이력의 차이는 무엇인가?
-선분이력은 언제 필요한가?
 


주문상품 변경이력 테이블에 종료일시가 보인다. 설계자에게 종료일시가 왜 필요한지 물어보았다. “선분이력을 만들기 위함입니다.” 왠 선분이력? 주문상품 변경이력에 선분이력이 왜 필요한지 다시 물어 보았다. “최근에 변경된 주문 데이터를 가져오려면 주문번호 + 상품번호 + 종료일시 + 시작일시로 PK 인덱스를 구성해야 빠르게 가져올 수 있기 때문입니다. 알만 하신 분이 이런것을 왜 물어봅니까?” 어이쿠 한방 맞았다. 이럴때는 물러나야 한다. 설계자가 필자를 감사나 감리로 느낄 수 있기 때문이다.

각종 변경이력 테이블에 인덱스(종료일자 + 시작일자) 열풍이 지난 몇 년간 불고 있는 듯하다. 인덱스를 떠나서 종료일자를 아예 PK 컬럼으로 설정해 놓고 있다. 하지만 유용한 물건도 용도를 모르고 사용하면 다칠 수 있다. 변경이력에 성능을 위한 종료일자는 필요 없다. 종료일자는 성능관점에서 고려할 것이 아니라 업무적으로 필요할 때만 사용해야 한다.

 

환경: Oracle 11g R2

 

(시작일시 + 종료일시) 인덱스와 (종료일시 + 시작일시) 인덱스의 성능비교를 위해 100만 건을 생성한다. 

CREATE TABLE TEST1 AS  

SELECT SYSDATE - level AS start_dt,                  --시작일시

       SYSDATE - level + 1 - 1/24/60/60  AS end_dt,  --종료일시

       '종료일자의 필요성 테스트' as txt

  FROM DUAL

CONNECT BY LEVEL <= 1000000;

 

ALTER TABLE TEST1 MODIFY(START_DT  NOT NULL, END_DT  NOT NULL);

 

CREATE INDEX idx_test1_01 ON TEST1 (START_DT, END_DT) ;

CREATE INDEX idx_test1_02 ON TEST1 (END_DT, START_DT) ;

 

begin

    dbms_stats.gather_table_stats(user, 'TEST1', cascade => true);

end;

 

시작일시, 종료일시의 min, max 값을 구해보자.

select TO_CHAR(min(START_DT), 'SYYYYMMDD HH24MISS') min_st_dt,

       TO_CHAR(max(START_DT), 'SYYYYMMDD HH24MISS') max_st_dt,

       TO_CHAR(min(END_DT),   'SYYYYMMDD HH24MISS') min_ed_dt,

       TO_CHAR(max(END_DT),   'SYYYYMMDD HH24MISS') max_ed_dt

  from test1;

 

MIN_ST_DT        MAX_ST_DT        MIN_ED_DT        MAX_ED_DT      

---------------- ---------------- ---------------- ----------------

-07281227 105223  20101115 105223 -07281228 105222  20101116 105222

1 row selected.

 

BC 728년부터 시작하여 가장 최근의 시작일자는 2010 11 15 10 52 23초이다. 참고로 BC를 나타내려면 ‘SYYYYMMDD’를 포맷으로 사용해야 한다. 이제 테스트를 시작해보자.

 

최근 정보를 구할 때 시작일자 + 종료일자 인덱스는 느리다?

최근 데이터를 구할 때는 시작일시 + 종료일시 인덱스를 사용하면 비효율적이라고 하였다. 정말 그런지 (시작일시 + 종료일시) 인덱스를 이용하여 가장 최근의 데이터를 구해보자.

 

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_01) */ *

  FROM TEST1 T

 WHERE TO_DATE('20101116', 'SYYYYMMDD') BETWEEN start_dt AND end_dt

   AND ROWNUM = 1;

 

----------------------------------------------------------------------------------------------

| Id  | Operation                    | Name         | Starts | A-Rows |   A-Time   | Buffers |

----------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |              |      1 |      1 |00:00:00.21 |    3773 |

|*  1 |  COUNT STOPKEY               |              |      1 |      1 |00:00:00.21 |    3773 |

|   2 |   TABLE ACCESS BY INDEX ROWID| TEST1        |      1 |      1 |00:00:00.21 |    3773 |

|*  3 |    INDEX RANGE SCAN          | IDX_TEST1_01 |      1 |      1 |00:00:00.21 |    3772 |

----------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   3 - access("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND

              "START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

       filter("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

 

시작일자 + 종료일자 인덱스는 최근의 데이터를 구할 때 불리하다. 한 건을 구하기 위해 3773 블럭이나 Scan 하였기 때문이다. 시작일자 + 종료일자 인덱스는 최근 데이터를 구할 때 비효율적임을 알 수 있다.

 

최근 정보를 구할 때 종료일자 + 시작일자 인덱스는 빠르다?
최근 정보(2010년 11월 16일 데이터)를 구하기 위해 종료일자 + 시작일자 인덱스를 이용한다.
 

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_02) */ *

  FROM TEST1 T

 WHERE TO_DATE('20101116', 'SYYYYMMDD') BETWEEN start_dt AND end_dt

   AND ROWNUM = 1;

 

----------------------------------------------------------------------------------------------

| Id  | Operation                    | Name         | Starts | A-Rows |   A-Time   | Buffers |

----------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |              |      1 |      1 |00:00:00.01 |       4 |

|*  1 |  COUNT STOPKEY               |              |      1 |      1 |00:00:00.01 |       4 |

|   2 |   TABLE ACCESS BY INDEX ROWID| TEST1        |      1 |      1 |00:00:00.01 |       4 |

|*  3 |    INDEX RANGE SCAN          | IDX_TEST1_02 |      1 |      1 |00:00:00.01 |       3 |

----------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   3 - access("END_DT">=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss') AND

              "START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

       filter("START_DT"<=TO_DATE(' 2010-11-16 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

 

종료일자 + 시작일자 인덱스는 불과 4블록만 Scan 하였으므로 매우 효율적이다. 설계자들이 종료일자를 선호하는 이유는 이것뿐이 아니다. 최종 변경건의 종료일자에 ‘99991231’을 입력하면 쉽고 빠르게 max 값을 찾을 수 있다는 사실이 모델러를 기쁘게 한다. 아래의 SQL을 보자.

 

Max 일자를 구하기 위해 최종 종료일자를 4000 12 31일로 update 한다.

 

UPDATE TEST1

   SET END_DT = TO_DATE('40001231','YYYYMMDD')

 WHERE start_dt = TO_DATE('20101115 105223', 'SYYYYMMDD HH24MISS') ;

1 row updated.

 

COMMIT;

Commit complete.

 

이제 max 값을 구해보자.

SELECT /*+ gather_plan_statistics INDEX(T idx_test1_02) */ *

  FROM TEST1 T

 WHERE end_dt = TO_DATE('40001231','YYYYMMDD')

   AND ROWNUM = 1;

 

----------------------------------------------------------------------------------------------

| Id  | Operation                    | Name         | Starts | A-Rows |   A-Time   | Buffers |

----------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |              |      1 |      1 |00:00:00.01 |       4 |

|*  1 |  COUNT STOPKEY               |              |      1 |      1 |00:00:00.01 |       4 |

|   2 |   TABLE ACCESS BY INDEX ROWID| TEST1        |      1 |      1 |00:00:00.01 |       4 |

|*  3 |    INDEX RANGE SCAN          | IDX_TEST1_02 |      1 |      1 |00:00:00.01 |       3 |

----------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   3 - access("END_DT"=TO_DATE(' 4000-12-31 00:00:00', 'syyyy-mm-dd hh24:mi:ss'))

 

좋은 것이 아니라 선입견이다. 틀을 깨라

종료일자에 4000 12 31일 조건만 주면 쉽고 빠르게 max 값을 구할 수 있다. 정리하면, 종료일시 + 시작일시 인덱스는 빠르고, between을 사용할 수 있고, 종료일자에 = 조건을 주면 max값을 찾을 수 있다.  이 세 가지 사실만으로 종료일자는 충분히 매력적이라고 생각 할 수 있다.

하지만 역설적이게도 이런 사실들은 여러 사람을 함정에 빠트린다. 종료일시라는 컬럼을 사용하는 것이 왜 함정인지 지금부터 논의해보자.

 

인덱스를 동적으로 바꿔서 사용할 것인가?

위의 예제들을 보면 인덱스(종료일자 + 시작일자)를 사용해야 하는 것처럼 보인다. 하지만 최근 데이터가 아닌 오래된 데이터를 보려면 어떻게 할 것인가? 최근 데이터를 구할 때는 종료일자 + 시작일자 인덱스를 사용하고 예전 데이터를 구할 때는 시작일자 + 종료일자 인덱스를 사용해야 하는가?  그렇게 하려면 기준이 필요하다. 언제부터가 오래된 데이터 인가? 1달 전 데이터? 아니면 1년 전 데이터? 이력테이블마다 기준을 만든다는 것은 불가능한 일이므로 그렇게 할 수도 없고, 그렇게 할 필요도 없다.

 

PK의 정합성을 어떻게 확보할 것인가?
서론에서 언급했던 PK에 대해서 논의해보자. 성능관점에서 주문번호 + 상품번호 + 종료일시 + 시작일시를 PK로 지정했다고 가정하고, 이때까지 PK의 정합성에 별 문제가 없다고 좋아해서는 안 된다. 주문상품 변경이력 테이블에서 본래의 식별자는 주문번호 + 상품번호 + 변경일시(시작일시)이다. 3개의 컬럼으로 Unique를 만족해야 한다. 하지만 종료일시가 PK에 끼어듦으로 해서 정합성이 깨질 수 있다. 예를 들면 종료일시를 PK에 추가하는 순간 같은 주문번호로 같은 상품을 같은 변경일시에 2건이상 insert 하는 것(Dup)을 허용하는 꼴이 된다. 종료일시를 PK에 추가하였으므로 세개의 값이 같아도 종료일시만 다르다면 insert가 가능하다. 변경이력 테이블의 데이터에 Dup이 많은 이유는 대부분 종료일시 때문이다.  

 

인덱스에서 종료일자를 빼면 성능이 저하된다?

왜 인덱스(종료일시 + 시작일시) VS 인덱스(시작일시 + 종료일시)만 고려해야 하는가? 틀을 깨보자. 그냥 시작일시만 인덱스로 잡아보자. 기존 인덱스를 모조리 삭제하고 시작일시만으로 구성된 인덱스 만들어 본다. 그리고 이제부터 종료일시 컬럼도 없다고 가정한다.

DROP INDEX idx_test1_01;

DROP INDEX idx_test1_02;

CREATE INDEX idx_test1_03 ON TEST1 (START_DT) ; 

                                                                                                  

이제 최종 데이터를 구해보자.

SELECT /*+ gather_plan_statistics  */ *

  FROM test1 t

 WHERE start_dt = (SELECT MAX (start_dt) FROM test1);

 

----------------------------------------------------------------------------------------------

| Id  | Operation                    | Name         | Starts | A-Rows |   A-Time   | Buffers |

----------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |              |      1 |      1 |00:00:00.01 |       7 |

|   1 |  TABLE ACCESS BY INDEX ROWID | TEST1        |      1 |      1 |00:00:00.01 |       7 |

|*  2 |   INDEX RANGE SCAN           | IDX_TEST1_03 |      1 |      1 |00:00:00.01 |       6 |

|   3 |    SORT AGGREGATE            |              |      1 |      1 |00:00:00.01 |       3 |

|   4 |     INDEX FULL SCAN (MIN/MAX)| IDX_TEST1_03 |      1 |      1 |00:00:00.01 |       3 |

----------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   2 - access("START_DT"=)

 

시작일시가 인덱스의 선두컬럼이므로 성능이 좋지 않을것으로 판단하면 오산이다. 3773 블록이 아니라 고작 7블록을 scan 했다. 이 정도면 충분한 성능이다. 서브쿼리를 사용했으므로 SQL이 복잡해진다는 의견은 받아 들일 수 없다. 위의 쿼리가 그렇게 복잡하다면 SQL을 다시 공부해야 한다.

또 다른 반박의견으로는 종료일시 + 시작일시 인덱스를 사용하면 4블록만 Scan하지만 시작일시만으로 구성된 인덱스는 7블록을 Scan한다는 의견이 있다. 맞는 말이다. 하지만 초당 수백 번 혹은 수천 번 사용되는 것이 아니라면 이대로 사용해도 무리가 없다. 만약 자주 사용되어 부하가 심한 SQL이라면 다음처럼 사용하면 된다.

 

SELECT /*+ gather_plan_statistics */ *

  FROM (SELECT *

          FROM test1 a

         ORDER BY a.start_dt DESC)

 WHERE ROWNUM = 1 ;  

 

-----------------------------------------------------------------------------------------------

| Id  | Operation                     | Name         | Starts | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |              |      1 |      1 |00:00:00.01 |       4 |

|*  1 |  COUNT STOPKEY                |              |      1 |      1 |00:00:00.01 |       4 |

|   2 |   VIEW                        |              |      1 |      1 |00:00:00.01 |       4 |

|   3 |    TABLE ACCESS BY INDEX ROWID| TEST1        |      1 |      1 |00:00:00.01 |       4 |

|   4 |     INDEX FULL SCAN DESCENDING| IDX_TEST1_03 |      1 |      1 |00:00:00.01 |       3 |

-----------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

 

정확히 4블록만 Scan 하였으며, 위의 SQL도 복잡하지 않음을 알 수 있다. max값을 구하기 위해 종료일자 컬럼은 필요치 않음을 알 수 있다.

종료일시 + 시작일시로 구성된 인덱스의 장점은 특정 시점의 테이터를 between으로 구할 수 있다는 것이다. 종료일시 컬럼이 없고 시작일시만으로 구성된 인덱스는 특정시점의 데이터를 조회해야 할때 between을 사용할 수는 없다. 과연 SQL은 얼마나 복잡해질까? 또한 최근 데이터를 구할 때 얼마나 느려질까?

 

SELECT /*+ gather_plan_statistics */ *                   

  FROM (SELECT *

          FROM test1

         WHERE start_dt <= TO_DATE('20101115 105223', 'SYYYYMMDD HH24MISS')

         ORDER BY start_dt DESC )

  WHERE ROWNUM = 1;    

 

------------------------------------------------------------------------------------------------

| Id  | Operation                      | Name         | Starts | A-Rows |   A-Time   | Buffers |

------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT               |              |      1 |      1 |00:00:00.01 |       4 |

|*  1 |  COUNT STOPKEY                 |              |      1 |      1 |00:00:00.01 |       4 |

|   2 |   VIEW                         |              |      1 |      1 |00:00:00.01 |       4 |

|   3 |    TABLE ACCESS BY INDEX ROWID | TEST1        |      1 |      1 |00:00:00.01 |       4 |

|*  4 |     INDEX RANGE SCAN DESCENDING| IDX_TEST1_03 |      1 |      1 |00:00:00.01 |       3 |

------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   4 - access("START_DT"<=TO_DATE(' 2010-11-15 10:52:23', 'syyyy-mm-dd hh24:mi:ss'))

 

장점이 없는데 자리만 차지한다

특정 시점의 데이터를 구하려면 시작일시 <= 특정시점을 만족하는 데이터 중에 max(시작일시)에 해당하는 값을 취하면 된다. 위에서 보듯이 SQL이 어렵지 않으며 성능 또한 최적이다. 이로써 특정시점의 데이터를 구하는 것도 종료일시가 필요치 않으며, 시작일시 인덱스만으로도 충분한 성능을 낸다는 것을 알 수 있다. 또한 최근 데이터(2010 11 15)를 구할 때에도 시작일시 인덱스를 사용하면 최적이다. 이제 종료일시 + 시작일시 인덱스는 성능이 우월 하지 않음을 알게 되었다. 또한 종료일시 컬럼은 어떠한 장점도 없으면서 테이블과 인덱스의 덩치(Disk Size)만 크게한다는 것도 알게 되었다.

 

변경이력에서 종료일자는 추출속성이며 성능을 위해 역정규화 한 것

사실은 ~변경이력에서 시작일자 혹은 종료일자란 없는 것이다. 시작일자는 변경일자로 사용해야 하며 종료일자는 존재하지 않는 것이다. 종료일자 혹은 종료일시는 추출속성이다. 이 추출 속성을 유지하기 위해 원본 테이블의 데이터가 변경될 때마다 트리거성으로 이력테이블의 종료일자에 update가 발생한다. update가 없다면 변경이력 테이블의 모든 종료일자의 값은 ‘99991231’일 것이다.

 

만약 종료일자 없이 시작일자만 관리했다면 이러한 update는 발생하지 않는다. 원본 테이블에 변경이 자주 발생할 수록 update의 부하는 심해질 것이다. 또한 가능성은 많지 않지만 이런 역정규화에 의해 데이터의 정합성이 깨질 수도 있다.

 

그럼 종료일자는 언제 사용해야 하나?

가장 중요한 부분이다. 종료일자는 성능관점이 아니라 업무(Business)적으로 필요할 때만 써야 한다. 예를 들어보자. 당신이 프로젝트에 투입되는 계약을 했다고 가정해보자. 그 계약서에는 '며칠부터 며칠까지 프로젝트에 투입된다'고 명시되어 있어야 한다. 이럴 때는 시작일자 종료일자를 사용해야 한다. 또한 자동차를 빌릴 때(Rent)에도 언제부터 언제까지 사용할 것인지 명시되어야 한다. ~변경이력과 변경이력이 아닌 것과의 차이점을 알았다면 종료일자를 언제 써야 하는지도 이해한 것이다. 바로 이것이 점이력과 선분이력의 차이이다. 원래 점이력이었던 것을 선분이력으로 바꾸어선 안된다.

 

결론

1 ~변경이력 테이블에서 종료일자는 성능관점이나 개발생산성 관점에서 장점이 없다.

2 ~변경이력 테이블의 PK에 종료일자를 추가하면 정합성을 해칠 수 있다. 이렇게 되면 DB 차원에서 정합성을 보장하지 못한다. 따라서 종료일자가 추가된 PK가 존재함에도 불구하고 주문번호 + 상품번호 + 시작일자로 Unique 인덱스를 추가로 생성하거나 아니면 프로그램에서 정합성 체크를 해야 한다.
3 ~변경이력 테이블에서 종료일자는 테이블과 인덱스의 사이즈를 각각 크게한다. Disk 공간이 더 필요할 것이다.

4 인덱스가 A + B 일 때 insert 하는 속도는 인덱스가 B 컬럼으로만 되어있을 때 insert 하는 속도보다 느리다. 이 원리는 종료일자 + 시작일자 인덱스와 시작일자만으로 구성된 인덱스에도 적용된다.

5 ~변경이력 테이블에서 종료일자는 추출속성이며 역정규화가 필요하다. 역정규화는 원본데이터가 변경될 때마다 update가 추가로 발생된다.
6 역정규화는 데이터가 틀어질 위험성을 가지고 있다.

 

1, 2, 3, 4, 5, 6에 의해서 종료일자 혹은 종료일시는 변경이력에서 성능관점으로 사용해서는 안되며 업무적으로 필요할 때에만 사용해야 한다. 이렇게 된다면 성능이 보장되는 것은 물론이고, 인덱스와 테이블의 사이즈도 줄어들 뿐만 아니라 역정규화의 단점인 update의 부하와 데이터의 정합성이 틀어지는 것을 막을 수 있다.

필자는 선입견이 많아서 자주 되뇌이는 말이 있다.
"진실이라고 생각되는 것들은 때때로 변한다. 하지만 선입견은 좀처럼 변하지 않는다." 만약 이말을 따른다면 우리가 이미 알고 있다고 생각하는 것들을 의도적으로 의심해 보아야 한다. 나는 이런 사람들을 린치핀이라 부르고 싶다.

저작자 표시 비영리 동일 조건 변경 허락
신고
Posted by extremedb

댓글을 달아 주세요

  1. Favicon of http://david2kim.tistory.com/ BlogIcon 리베 2010.11.17 09:28 신고  댓글주소  수정/삭제  댓글쓰기

    소개하신 선분이력에 종료일자가 들어가는 이슈는 아무래도 E사의 영향이 큰듯 합니다.
    Modeling 교육 때에도 이 문제로 강사와 수강생이 의견충돌을 보였었는데요. 강사쪽에서 워낙 강경하게 나오는 상황에,
    다른 수강생들의 눈총(?) 때문에 결론을 맺지 못한 주입식(?) 교육이 되었던 기억이 있습니다.
    말씀하신 바와 같이 실제로 시작일자와 종료일자를 포함한 PK를 생성하였을 경우 관리상의 어려움(?)이 조금씩 발생하더군요.
    뭐, 이 부분에 대해서 본인이 Modeling을 잘못해서, 또는 Query를 잘 활용을 못하기 때문에라고 말씀하신다면야 할 말이 없습니다만...
    최소한 누가 좋다더라... 이렇게 해야된다고 하던데... 라는 식의 말로 인해서 마치 "성능 향상 불변의 법칙"처럼 되는 형태는 지양되어야 하지 않을까 싶습니다. 예를들어 5년전에 최고였던 기술이 현시점에도.. 앞으로 미래에도 최고의 기술이라는 법은 없으니 말이죠...
    항상 고정관념(?)을 깨주시는 오동규님의 게시물은 저에게 자극을 주는듯 합니다. 감사합니다. ^^

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.17 13:21 신고  댓글주소  수정/삭제

      반갑습니다. 리베님
      그런일이 있었군요.^^
      리베님처럼 변경이력의 pk에 종료일자 때문에 관리에 어려움을 호소하는 분들이 많습니다.

      그리고 고정관념에 대해서는 저도 피해갈 수 없었습니다. 수많은 토론과정과 증명과정을 통하는 방법이나 의도적으로 의심을 하는 방법으로 고정관념을 극복하기 위해 노력하는 중 입니다.^^

  2. 라튜니 2010.11.17 13:45 신고  댓글주소  수정/삭제  댓글쓰기

    항상 좋은 정보 감사합니다. 공감되는 내용입니다.

    저 역시 종료일자는 큰 의미가 없다고 생각됩니다.

    다만 이력으로 종료일자를 사용할 경우 PK로 ID + 시작일자 + 종료일자 는 의미가 없다고 생각합니다만
    PK를 ID + 종료일자로 구성하는 것은 나름 장점이 있다고 생각합니다. 물론 마찬가지로
    이 경우에도 DB에서 실체무결성으로 정합성을 보장해 주지는 못합니다.

    그러나 종료일자를 사용하고 종료일자에 '99991231'과 같은 고정한 값을 지정함으로써의 장점은
    종료일자 이후에 다른 컬럼들이 있는 결합인덱스에서 일꺼 같습니다.

    ID + 종료일자 + 조건1 + 조건 2 .... 결합인덱스의 경우
    WHERE 조건에 종료일자 = '99991231' 를 줌으로써 최신 데이타를 바로 찾을 수 있고
    결합인덱스의 종료일자 이후 조건(조건1, 조건2이 '=' 조건으로 사용될 경우)을 드라이빙(Access) 조건으로
    사용할 수 있기 때문이죠.

    말씀하신 것 처럼 WHERE start_dt <= TO_DATE('20101115 105223', 'SYYYYMMDD HH24MISS')
    조건을 사용하다면 결합인덱스의 경우 시작일자 이후의 다른 컬럼들은 Access 조건으로 사용될 수 없을 꺼 같은데요.

    물론 마찬가지로 시작일자를 '99991231' 과 같은 고정된 값으로 지정한다면 가능하겠지만 시작일자를 고정한 값으로
    하는 것은 이치에 맞지 않는 거 같네요.

    이 점은 어떻게 생각하시는지 궁금합니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.17 15:45 신고  댓글주소  수정/삭제

      안녕하세요. 라튜니님. 자주 뵙네요.

      말씀하신대로 시작일자 이후의 다른 컬럼들은 Access 조건으로 사용될 수 없습니다. 또한 시작일자를 고정한 값으로 사용하는 것도 불가능 합니다.

      이야기 하신 pk 인덱스가 ID + 종료일자 + 조건1 + 조건 라고 한다면 종료일자 대신에 ID + 조건1 + 조건 + 시작일자 를 PK로 지정 하시면 됩니다.

      만약 PK 인덱스가 ID + 종료일자 로 구성되었고 ID + 종료일자 + 조건1 + 조건 인덱스를 추가하셨다면 시작일자로 대체가 가능합니다. PK 인덱스를 ID + 시작일자 로 두고 ID + 조건1 + 조건 + 시작일자 로 추가적인 인덱스를 구성하시면 됩니다.

      잘 아시겠지만, 종료일자 컬럼을 무조건 쓰지 말라는 이야기가 압니다. 앞서 예를 들었던 자동차 RENT를 예를 들면 종료일자를 써야 합니다. 변경이력이 아니기 때문입니다. 즉 자동차의 정보가 바뀐게 아니라는 겁니다. 자동차의 데이터는 그대로 이지만 시간이 흐름에 따라 빌려간 사람들이 달라지겠죠.

      다만 컬럼의 값이 변경되면 트리거성으로 INSERT 되는것은 변경이력 입니다. 이때는 역정규화는 위험하기 때문에 사용을 자제하자는 것 입니다. 자제라는 말은 역정규화를 하여 장점이 단점보다 큰 경우에는 종료일자를 사용할 수 있다는 뜻입니다.

      이 POST에서 말하고자 하는 것은 ~변경이력 엔티티를 설계할 때 장단점을 따져보지 않고 습관적으로 종료일자를 추가하는 경우에 대해 경종을 울린것 입니다. 장/단점을 비교하시고 설계하셨다면 문제가 없습니다.^^

  3. 혈기린 2010.11.17 15:39 신고  댓글주소  수정/삭제  댓글쓰기

    말씀하신걸 종합하면 점이력 선분이력을 정할때 성능관점이 아닌 업무관점으로 구분해서 모델링을 해야한다는 말씀이신가요?
    모르는 사람이 보면 선분이력은 점이력에 비해서 좋은점이 없다 처럼들릴거 같아서요
    실제 업무에서 보면 선분이력으로 관리해야 하는데 점이력으로 관리하여서 많은 문제점이 있었던것을 보아서요~~

    인덱스를 종료일자+시작일자 이냐 아니면 시작일자+종료일자로 할것이냐만 고민했었는데 많은것을 느끼게 해주는 글이었습니다
    감사드립니다 ^^

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.17 16:43 신고  댓글주소  수정/삭제

      기린님 반갑습니다.
      제가 쓴 글의 요지는 변경이력이냐 아니냐에 있습니다. 값이 바뀔때 트리거성으로 INSERT 되는 테이블은 변경이력입니다. 하지만 자동차 RENT의 경우는 변경이력이 아닙니다. 자동차 정보가 바뀌는것이 아니기 때문입니다. 자동차 RENT의 경우는 선분이력이 맞습니다.종료일자가 원래 존재합니다. 이럴때는 종료일자를 사용해야 합니다.

      반대로 변경이력인 경우는 종료일자가 존재하지 않는것입니다. 만약에 종료일자가 있다면 이것은 역정규화 한 것며 종료일자가 장점이 없다는 것을 말씀 드린겁니다. 원래는 없던것을 만들어 낸 것이죠. 하지만 이때에도 예외적으로 종료일자가 있으면 좋은 경우는 있습니다.

      예를 들면 사원변경이력 테이블의 경우입니다. 현재 부서번호 10번인 직원들에 대하여 최종 이력을 보려고 할때 입니다. 종료일자가 존재한다면 아래처럼 간단히 구현할 수 있습니다. 이 예제는 회사에 같이 근무하는 컨설턴트에게 들은 것 입니다.
      WHERE 부서번호 = 10
      AND 종료일자 = '99991231'

      하지만 시작일자만 존재한다면 위의 경우처럼 간단히 구할 수 없습니다. WHERE 부서번호 = 10 조건만 줄수 있으므로 과거에 부서번호가 10번이 이었던 직원과 현재 부서번호가 10번인 직원이 혼재되어 나오므로 추가적으로 직원테이블과 조인을 하거나 추가적인 작업이 필요합니다. 또한 프로그램 화면에 종료일자를 항상 표시해야 하는 경우는 분석함수를 써야 할 수도 있습니다. 이럴때에는 종료일자를 추가할 지 말지 장단점을 따져보아야 합니다.

      감사합니다.

  4. salvationism 2010.11.18 14:33 신고  댓글주소  수정/삭제  댓글쓰기

    좋은 글 잘보고 갑니다.
    글로 쓰기는 좀 그런데 놓쳤던 부분을 하나 얻고 갑니다.

  5. Favicon of http://ukja.tistory.com BlogIcon 욱짜 2010.11.18 14:42 신고  댓글주소  수정/삭제  댓글쓰기

    히스토리 데이터 관리를 위해 "종료일자"라는 추가하는 것이 "역정규화(또는 비정규화)"의 일종이라는 것을 간과하기 쉬운데 아주 명쾌하게 설명하셨네요.

    히스토리 데이터 관리를 위해 종종 사용되는 또 다른 방법 중 하나가 "현재(최신) 데이터"와 "과거(이력) 데이터"를 별도의 테이블 분리하는 것인데, 이 방법 또한 철저한 검증을 할 기회가 있어야겠군요.

  6. Favicon of http://blog.naver.com/bluepupils BlogIcon 김기창 2010.11.18 14:46 신고  댓글주소  수정/삭제  댓글쓰기

    바쁘다는 이유로 이제서야 처음으로 글을 올리는데... 처음부터 쉬운 소재의 글이 아니네요. ㅎㅎ

    이 글을 읽는데 도움이 될 수 있어... 이력이 어떤 데이터를 의미하는지부터 잠깐 언급할게요.
    저는 간단히 '발생내역'과 '변경이력'으로 구분합니다.

    일반적인 트랜잭션이 발생시킨 데이터(발생내역)와
    이미 존재하는 발생된 데이터가 변경될 때 생기는 데이터(변경이력)는 다르죠.
    제 책(이론과 실무를 겸비한 전략서-관계형 데이터 모델링 프리미엄 가이드)을 참고하시면 차이점은 쉽게 이해하실 것입니다. 물론 완전히 구분하기 쉽지 않아 더 연구해야 할 분야라고 생각합니다.

    발생내역 데이터에 종료일자가 들어가야 하는 경우(업무)는 기간을 의미하는 것 이외는 없을 거 같고요.
    윗글에서 언급된 렌트기간을 관리할 때 종료일자를 사용하겠죠.
    이건 생략해도 되는 추출속성이 아니라 필수적으로 필요한 업무 속성입니다.

    문제는 윗글에서 언급한 변경이력인데요.
    기존 데이터가 변경된 것이므로 뭐(PK)에 대한 변경을 관리하게 됩니다. 즉 PK+종료일자, PK+시작일자(+종료일자), PK+변경일자와 같이 관리하게 됩니다.

    개인적으로 더 상세한 검토가 필요하지만 일정 부분 성능과 관련이 있다고 생각했는데요. 차이가 없다고 하니 새로운 발견이네요.
    엄청나게 조회되는 요건에 해당하거나 과거 특정일에 해당하는 대량 조회일 경우에도 성능이 완전히 같은지 검토해야 될 거 같습니다.

    제 책에서도 언급했지만 실무에서 종료일자가 남발되는 경향이 있어요.
    관리가 안 되는 경우를 많이 봤기 때문에 보수적으로 사용해야 될 거 같습니다.

    데이터 정합성은 무엇보다 중요합니다. 약간의 성능 향상보다 정합성이 더 중요하다고 생각합니다.
    계정계에서의 대부분의 변경이력 데이터는 'PK+변경일자'처럼 관리해도 충분한 거 같습니다.

    p.s.
    그동안 개인적인 일 때문에 별 도움이 못 돼 죄송해요. ㅎㅎ
    모델링 영역에서도 참신한 내용들 많이 부탁드리겠습니다.

    • 혈기린 2010.11.18 16:22 신고  댓글주소  수정/삭제

      오동규님 페이스북에서 모델링 서적을 같은회사 컨설턴트분이 집필중이라는 이야기를 들었는데
      드뎌 출간이 되시나 보네요 ~~
      기대 됩니다 ㅎㅎ

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.18 17:41 신고  댓글주소  수정/삭제

      종료일자에 대해서는 저와 생각이 같네요. 보수적으로 사용해야 한다는...

      아 참! 축하드립니다. 모델링책이 출간되었군요. 아마 이번달 말에는 서점에서 구할 수 있겠죠? 기대 됩니다.

      그리고 혈기린님 제가 페이스 북에서 그런말을 했었나요? 대외비인데 큰일 날뻔 했네요.^^

    • 혈기린 2010.11.18 18:10 신고  댓글주소  수정/삭제

      대외비 였나요 ㅎㅎ
      이렇게 고수분들의 열정을 볼때마다 많이 반성하게 됩니다 나태한 자신을 ~~

    • 최상운 2010.11.18 19:42 신고  댓글주소  수정/삭제

      흥미로운 글들입니다.

      개인적인 의견으로는 오동규님도 언급 했듯이, <종료일자>는 성능적인 문제 보다는 업무적인(자동차 RENT 회사의 예처럼) 관점에서 접근해야 할 것 같습니다.

      변경의 성격이 연속적이라면 <시작일자(변경일자)>만 관리 해도 될것 같습니다.
      (하지만 연속적인 경우라도 지구가 멸망할때가지 연속적일지는 잘 모르겠네요)

      변경의 성격이 비 연속적이라면 <시작일자> 와 <종료일자> 모두를 관리해야 할 것입니다.
      (이 경우에는 지구가 멸망하기 하루 전에 종료처리를 하면 되겠네요)

      데이터의 정합성 문제는 크게 이슈 될 필요가 없을것 같네요. 일반적인 변경이력은 자식 엔티티를 파생하지 않고,선분이력의 경우 DBMS 차원에서 선분의 중복을 막을 수 있는 방법은 없으니깐요.(아래 글에서 Constraint를 걸자고 하는데 현실적으로는 불가능할 것 같네요.)
      변경이력에서는 정합성 보다는 데이터의 무오(無誤)성이 중요 하다고 생각 되네요.

      성능적인 관점에서는 오동님의 논거도 틀리지는 않았다고 봅니다. 다만, 다양한 경우에서 보편적으로 적용 할 수 있을 지는 좀더 검증과 논의가 있어야 할 것으로 생각 됩니다.

      앞으로 어떻게 진행될지 기대가 됩니다.

    • 선분이력 2010.11.18 21:53 신고  댓글주소  수정/삭제

      아래 글은 Constraint를 걸자는 얘기가 아니고, 혹시 "그런 기능이 DBMS에 추가된다면"이라고 말하고 있습니다. 정합성 측면은 일단 논외로 하고 성능측면으로 좁혀서 생각해 보자는 의도입니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.19 08:51 신고  댓글주소  수정/삭제

      최상운 수석님 반갑습니다.
      말씀하신대로 다양한 경우에 대하여 검증이 필요합니다.

  7. 선분이력 2010.11.18 18:17 신고  댓글주소  수정/삭제  댓글쓰기

    상품번호, 시작일자, 종료일자, 가격
    =======================================
    상품A, 2010/10/10, 2010/10/18, 1000
    상품A, 2010/10/12, 2010/10/20, 2000

    PK를 [상품번호+시작일자]로 구성하거나 [상품번호+종료일자]로 구성하면 레코드의 유일성은 보장됩니다. 다만, 선분의 중복을 막지 못합니다. 위 사례를 예로 들면, 2010/10/12부터 2010/10/18 구간에 속하는 이력 레코드가 2건이 되기 때문이죠. 이것이 선분이력의 가장 취약한 단점이고, 저도 이 때문에 선분이력으로 모델링할 때 데이터 상황과 여러가지 애플리케이션 특성을 고려해서 결정합니다.

    "변경이력 테이블에서 종료일자는 성능관점이나 개발생산성 관점에서 장점이 없다"고 단정하셨는데, 질문 한 가지 드리겠습니다.

    [질문] 만약 위와 같은 선분의 중복 현상을 원천적으로 막아주는 Constraint 기능이 DBMS에 추가된다면, 그래도 선분이력을 쓰지 않으시겠습니까?
    제시하신 예제는 너무 단편적이고 실제 업무에서 있을 법한 형태가 아니어서 아래와 같은 상황을 가정하겠습니다.

    -- 아래 ----------------------

    [ 서비스 ]
    # 서비스번호(PK)
    * 고객번호
    * 계정번호
    * 가입일자
    * 기타 속성들

    위 '서비스' 테이블과 자주 조인되는 '서비스변경이력', '고객변경이력', '계정변경이력' 테이블이 있고, 각각 PK 구성은 다음과 같습니다. (시작일자, 종료일자 순서는 논외)

    >> 서비스변경이력 : 서비스번호 + 시작일자 + 종료일자
    >> 고객변경이력 : 고객번호 + 시작일자 + 종료일자
    >> 계정변경이력 : 계정번호 + 시작일자 + 종료일자

    이런 상황에서 2010년 10월 1일부터 10월 31일 사이에 가입한 서비스와 관련한 각종 변경이력을 조회하고자 할 때, 모두 선분이력이므로 아래와 같이 간단하게 쿼리할 수 있습니다.

    select *
    from 서비스 a, 서비스변경이력 b, 계정변경이력 c, 고객변경이력 d
    where a.가입일자 between '20101001' and '20101031'
    and b.서비스번호 = a.서비스번호
    and c.고객번호 = a.고객번호
    and d.계정번호 = a.계정번호
    and a.가입일자 between b.시작일자 and b.종료일자
    and a.가입일자 between c.시작일자 and c.종료일자
    and a.가입일자 between d.시작일자 and d.종료일자
    and b.filter_condition = ...
    and c.filter_condition = ...
    and d.filter_condition = ...

    서비스 테이블에 대한 가입일자 조회구간은 가변적이고, 위 쿼리가 가장 자주 수행되는 쿼리라고 가정하겠습니다. 이런 업무를 선분이력으로 설계하고 위와 같이 간단하게 쿼리하는 것이 정말 성능상 잇점이 없다고 생각하시는지 궁금합니다.
    (다시 말씀드리지만, 선분의 중복 현상을 원천적으로 막아주는 Constraint 기능이 DBMS에 추가되었다고 가정하겠습니다. 데이터 정합성 문제는 따로 논하려는 것이므로 성능 관점에서만 답변해 주시면 고맙겠습니다.)

  8. 선분이력 2010.11.18 21:58 신고  댓글주소  수정/삭제  댓글쓰기

    SELECT * FROM
    (SELECT * FROM test1
    WHERE cust_no = 5
    AND start_dt <= TO_DATE('20101116', 'YYYYMMDD')
    ORDER BY start_dt DESC )
    WHERE ROWNUM = 1;

    새로 추가한 첨부파일에 위와 같이 cust_no를 추가하셨지만, 그렇더라도 현실 세계에서 위처럼 간단한 SQL은 많지 않습니다. 대부분 다른 테이블과 많은 조인을 수반합니다. 그리고 위처럼 특정 cust_no만 조회하는 것이 아니라 여러 고객을 조회해야 한다면 rownum 조건을 사용할 수도 없겠죠.
    위 쿼리만 보더라도 아래와 같이 작성하면 훨씬 간결합니다. 정렬 작업을 위해 Sort Area를 할당하지 않아도 되고요.

    SELECT * FROM test1
    WHERE cust_no = 5
    AND TO_DATE('20101116', 'YYYYMMDD') between start_dt and end_dt

    처음 답글에서 제가 제시한 모델을, 점이력으로 설계하면서도 더 간단하고 빠른 SQL문을 작성해 내지 못한다면 결국 성능 측면에선 선분이력이 잇점을 갖는 건 사실입니다.

    첨부 파일 PS에 덧붙이신 아래 의견이 제 질문에 대한 오동규님의 답변이라고 생각하고 계속 말씀드리겠습니다.

    -- 아래 ------------
    "역정규화의 장/단점을 비교해서 역정규화의 장점이 더 크고, 데이터의 정합성을 위해 별도의 검증 로직이 졲재하고, 정합성이 깨졌을 때 보정해주는 프로그램이 있다면 종료일자를 적용해도 문제가 없다. 이 글은 변경이력 엔티티를 설계할 때 장단점을 따져보지 않고 습관적으로 종료일자를 역정규화 하는 경우에 대해 경종을 울린 것이다. 또한 이 글을 읽고 업무적으로 점이력과 선분이력이 어떻게 다른지 판단할 수 있었으면 한다."
    -- 끝 --------------

    장단점을 따져보지 않고 "습관적으로" 종료일자를 두는 것에 경종을 울린다고 말씀하시지만 오동규님 글은 결국, "선분이력은 성능상 장점도 없는데다 데이터 정합성까지 해칠 위험이 있으니 좋지 않다"는 것이 결론처럼 느껴집니다. 데이터 정합성 부분은 많이 알려진 사실이어선지 주로 성능상 잇점이 없음을 설파하셨구요.
    데이터 정합성에 다소 문제가 생길 수 있음에도 불구하고 선분이력을 사용하는 데는 성능적인 이유가 가장 큽니다. 그럼에도 성능 문제가 거의 드러나지 않는 아주 간단한 샘플 쿼리를 보이며 "성능상 별차이 없지 않느냐, 도대체 장점이 뭐냐"고 얘기하신다면 또다른 편견을 양산할 수 있다는 생각이 듭니다.
    선분이력을 처음 접하고 무조건 선분이력으로 모델링하려는 분들이 계셨던 것처럼, 이 글을 접한 분 중에선 앞으로 선분이력을 무조건 배타적으로 바라보는 분들도 생겼을 것입니다. 오동규님이 추가로 올린 파일 말미에도 강조했듯이 차이를 알고 상황에 맞게 판단하는 능력이 중요한데도 말이죠.
    그런 측면에서 보면, 애초에 각각의 장단점만을 비교해 보였으면 좋지 않았을까란 생각을 했습니다. 의도와 다르게 선분이력에 대해 너무 부정적인 측면만을 강조했다는 생각에 주제넘게 끼어들게 되었습니다. 죄송합니다.

    • 선분이력 2010.11.18 23:48 신고  댓글주소  수정/삭제

      저도 선분이력에 대해 나름 연구를 많이 했고, 특히 정합성 측면에서 많은 고민을 하면서 한때 매우 비판적이었던 사람입니다. 성능이 아무리 빨라도 데이터를 지켜내지 못하면 허당이죠. 그것을 주장할 논리와 근거는 사라지고, 비판과 공격의 대상이 될 뿐입니다.
      하지만 현실 업무를 모델링하다 보면 선분이력의 매력에서 헤어날 수가 없습니다. 마약 같다는 느낌을 받죠. 왜냐면, 단점을 뻔히 알면서도 대안 모델을 찾기가 쉽지 않기 때문입니다. 여기서 점이력 모델과의 장단점 비교 논쟁을 계속하진 않겠습니다.
      하여튼...
      그래서 저는 방향을 바꿨습니다. 분명 장점은 있으므로 비판하기보다 보완하자는 쪽으로 말이죠. 가장 취약한 정합성 문제를 해결할 코딩 패턴을 개발하자는 생각입니다. 동시성 제어 측면에서 잘 연구해 보면, 몇 가지 아이디어가 나옵니다. 그 중 일부는 약간의 모델 변경을 겸해야 하구요. 고민은 각자에게 맡기고, 저는 여기까지... (선분이력의 모든 문제를 100% 해결할 솔루션이 있다면 당장 소개하겠지만, 그렇지가 못해 생략하는 겁니다. 예를 들어, Appl을 통하지 않은 데이터 변경엔 속수무책이죠. 혹시 영어가 되시는 분 있으면, 앞서 제가 말씀드린 Constraint 기능을 추가해 달라고 각 DBMS 벤더에 연락 좀 해 주세요.)

      PS. 점이력으로 충분한 업무라면 그렇게 하는 것이 최선이라는 점엔 동감입니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.19 02:02 신고  댓글주소  수정/삭제

      제가 이글을 쓴 배경에 대해서 말씀 드리겠습니다.

      종료일자의 장점을 나타낸 책과 글은 충분히 있습니다. 반면에 종료일자가 역정규화라는 생각을 가진 분은 별로 없었습니다.(물론 집단에 따라 다를 수 있습니다.) 더 심각한것은 DB쪽 튜닝을 아는 사람일 수록 종료일자를 비판없이 수용하는 것을 목격하였습니다. 흔하지는 않지만 튜닝을 모르는 모델러는 종료일자를 사용하지 않았습니다. 즉 종료일자가 대세라는 이야기 입니다. 이런 상황에서 제가 할 수 있는 일은 별로 없었습니다. 이 글에서 제가 주장하는 것은 대세가 아닙니다. 그래서 이 글도 쓸지 말지 고민을 하였습니다. 반발을 예상했기 때문입니다.

      이제 본문 내용에 대해 말씀드리겠습니다.
      업무적으로 점이력임에도 종료일자를 추가하여 선분이력으로 만들고자 하시는 분들의 대표적인 논리가 세가지 였습니다.
      1. 비교적 최근데이터를 구할 때는 종료일자 + 시작일자가 빠르다. 그래서 종료일자를 추가해야 한다.
      2. 특정 시점의 데이터를 보기위해서는 종료일자를 이용하여 BETWEEN을 쓰면 빠르고 쉽게 구할 수 있다.
      3. max값을 구할때 종료일자에 = '99991231' 만 주면 쉽고 빠르게 구할 수 있다.
      이 세가지가 종료일자를 추가해야 한다는 분들의 대표적인 주장들 입니다. 그래서 그게 아니라는 것을 조목 조목 나타냈습니다.

      성함을 알지 못하기에 선분이력님이라고 부르겠습니다. 물론 세가지 케이스 이외에도 선분이력님이 올려주신 SQL처럼 현실에서는 훨씬 더 어려운 케이스가 있다는것을 인정 합니다. 하지만 종료일자는 대세이고 그것의 장점이 이미 널리 알려져 있는 상황에서 종료일자의 장점을 차마 입에 담을 수는 없었습니다.(종료일자의 장단점을 비교하는 것이 더 좋았을 것이라고 말씀하셔서 답변을 드리는 것 입니다.)

      예전에 제가 근무하던 곳에서 원래 업무가 점이력임에도 불구하고 강제로 선분이력을 만듦으로 해서 두가지의 문제점이 발생했습니다. 레코드의 유일성 문제와 선분의 중복문제 입니다. 이 두가지 문제는 종료일자 때문에 생기는 겁니다. 애초에 고객번호 + 시작일시로 PK를 만들면 두가지 문제가 없어 집니다. 선분중복이란 종료일자가 생김으로 해서 문제가 발생하는 것입니다.

      제 글투가 너무 강했다는 것을 인정합니다. 제 글을 다시 읽어보니 너무 딱딱한 원칙론자 같이 느껴지네요. 다음 부터는 글의 어투를 신경써야 겠습니다. 너무 딱딱 하면 부러지게 마련이니까요.^^ 그런면에서 보면 "종료일자를 사용하면 안된다"가 아니라 다음처럼 수정하면 좋을것 같습니다.

      1.모델링단계에서는 역정규화를 안하는것이 원칙이며
      2.개발단계에서 SQL이 완성되고 테스트 데이터가 들어와서 성능이 떨어질때에도 무조건 종료일자를 추가하지 말고, 튜닝으로 해결 해야하며 그것이 안되면, 종료일자 추가 전후의 장단점을 비교한다.
      3. 종료일자를 사용하지 않을 때의 장점보다 사용할때의 장점이 더 크다면 데이터의 정합성을 위해 별도의 정합성을 체크하는 프로그램을 만들고, 정합성이 깨졌을 때 보정해주는 프로그램을 만든다면 종료일자를 적용해도 문제가 없다.
      4. 그렇지 않다면 종료일자를 사용하면 안된다.
      이렇게 정리하는게 옿을 것 같습니다. 종료일자에 대해 부정적인 입장은 어쩔 수 없을것 같습니다. 역정규화가 필요악(necessary evil)이라고 하더라도 악은 악이기 때문입니다. 물론 종료일자가 구세주가 될 수 있지만 현재상황에서 구세주임을 강조 할 필요는 없을 것 같습니다. 이미 알고 있을 테니까요.

      참 그리고 올려주신 SQL은 좋은 연구대상입니다. 언제 시간이 나면 빠르고 쉽게 처리 할 방법이 없는지 연구해 보겠습니다. 늦은시간 댓글 감사드립니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.19 08:53 신고  댓글주소  수정/삭제

      선분이력님 장문의 댓글 감사합니다.
      정반합에 이른것 같습니다.^^

    • 무대리 2010.11.19 10:14 신고  댓글주소  수정/삭제

      두 분의 글을 읽고 여러가지 생각을 하게 됩니다. 방금 정리하신 오동규님 의견에 저도 한마디 덧붙이면...
      일반적인 역정규화는 말씀하신 프로세스로 진행해도 무리가 없고, 일부 속성만 중복 설계하는 것이므로 Appl에 미치는 영향도 크지 않습니다. 성능 문제가 나타난 프로그램만 새로 추가된 속성을 사용하도록 변경하면 되니까요. 하지만 이력모델을 바꾸는 문제는 차원이 180도 다릅니다.

      1. PK를 어떻게 구성할지에 관한 문제임
      2. 이력모델은 대부분 Key나 Main에 속하는 "기준성 테이블"에 적용함
      3. 기준성 테이블엔 대부분 이력관리가 필요함

      이런 기준성 테이블을 두고, "일단 개발해 보고 나중에 성능이 안 나오면 그때 바꾸자"는 주장이 과연 현실적인지요?
      어떤 이력 모델이 적합할지는 데이터와 시스템의 전반적인 특성을 분석해 가장 먼저 결정해야 할 사항이라고 생각합니다. 점이력을 기본으로 하고서 부분적으로 선분이력을 채택하거나, 선분이력을 기본으로 하고서 부분적으로 점이력을 채택하거나. 이것이 데이터 아키텍트의 역할 아닐까요? 일단 10인승 엘리베이터로 설계해서 건물을 짓고 나중에 20인승으로 바꾸는 건 불가능합니다. 어린이나 장애인을 위해 조작 버튼을 낮게 추가 설치하는 건 가능하겠지만...

  9. 무대리님에게 2010.11.19 20:35 신고  댓글주소  수정/삭제  댓글쓰기

    일반적인 역정규화는 무리가 없지만 변경이력은 180도 다르다는 말은 찬성할 수 없는데요.
    왜냐하면 key 나 main은 기준성 테이블인데 반해 이들의 자식인 변경이력은 기준성이 아닙니다. 기준성은 거의 모든 화면에서 참조하거나 많은 화면에서 참조됩니다. 일반적으로 변경이력은 참조하는 화면이 한정 됩니다.

    두번째로 변경이력에서 pk를 어떻게 할 것인지의 문제는 변경이력 자체의 정합성만 따지면 됩니다. 변경의력의 자식테이블이 없기 때문입니다. 일반적으로 pk 가 변경되면 key를 상속하는 자식테이블에 모두 반영을 해줘야 하기 때문에 대단히 critical 합니다. 하지만 변경이력은 아닙니다. 자식이 없습니다.

    • 무대리 2010.11.20 12:27 신고  댓글주소  수정/삭제

      변경이력은 거의 참조하지 않는다는 걸 보니 모델링할 때 역정규화를 아주 많이 하는 분이시군요.
      거래성 데이터에 기준성 정보를 역정규화해 두지 않았다면, 기준성 테이블보다 그 변경이력 테이블에 대한 참조가 더 많아지게 마련입니다. 아래 SQL들은 매우 일반적인 형태고 모두 변경이력을 참조하고 있습니다.
      이렇게 조회가 많은 변경이력 테이블의 PK 구조를 일단 개발해 보고 나중에 바꾸자고 하시니 현실적이지 않다고 이의를 제기한 것입니다.
      만약 아래 사용된 종목변경이력, 고객변경이력, 상품변경이력을 선분이력으로 설계했다면 SQL이 얼마나 간단해지겠습니다. SQL이 간단한만큼 성능향상에도 도움이 됩니다. 참고로 이들 기준성 정보는 자주 변경되지 않기 때문에 update & insert 방식으로 이력을 쌓더라도 시스템 전반에 미치는 성능 부하는 적습니다.

      -- 11월 20일자 주식체결내역 조회
      select a.계좌번호, b.종목명, a.호가, a.체결가, a.체결시각, a.체결수량, b.시가, b.고가, b.저가, b.종가
      from 체결 a, 종목변경이력 b
      where a.거래일자 = '20101120'
      and b.종목코드 = a.종목코드
      and b.변경일시 = (select max(변경일시) from 종목변경이력 where 종목코드 = a.종목코드 and 변경일시 <= a.거래일자 || a.체결시각)
      ;

      -- 11월 20일에 접수된 불만성 상담건 조회
      select b.고객명, b.고객상태코드, b.고객등급코드, c.상품명, c.상품가격, c.상품유형코드, c.공급처, a.상담사유코드, a.상담내용, a.처리상태
      from 상담 a, 고객변경이력 b, 상품변경이력 c
      where a.상담분류코드 = 'VC' -- 불만성상담
      and a.상담일시 like '20101120%'
      and b.고객번호 = a.고객번호
      and b.변경일시 = (select max(변경일시) from 고객변경이력 where 고객번호 = a.고객번호 and 변경일시 <= a.상담일시)
      and c.상품번호 = a.상담상품번호
      and b.변경일시 = (select max(변경일시) from 상품변경이력where 상품번호 = a.상담상품번호 and 변경일시 <= a.상담일시)
      ;

      -- 11월 20일 주문내역 조회
      select o.고객번호, o.주문일시, o.배송지, d.상품코드, d.주문수량, p.상품가격, (d.주문수량*p.상품가격) 주문금액
      from 주문 o, 주문상세 d, 상품변경이력 p
      where o.주문일시 like '20101120%'
      and d.주문번호 = o.주문번호
      and p.상품번호 = d.상품번호
      and p.변경일시 = (select max(변경일시) from 상품변경이력 where 상품번호 = d.상품번호 and 변경일시 <= o.주문일시)
      ;

      PS) 재밌군요. 종료일자를 둔 선분이력이 역정규화이기 때문에 필요악(necessary evil)이라며 공격을 받았는데, 그것을 안 쓰고 기준성 테이블 위주로 쿼리하도록 하려면 거래성 테이블에 많은 역정규화가 필요해지네요.

    • 무대리 2010.11.20 13:54 신고  댓글주소  수정/삭제

      "DB쪽 튜닝을 아는 사람일수록 종료일자를 비판없이 수용하는 것을 목격했다. 튜닝을 모르는 모델러는 종료일자를 잘 사용하지 않는다."는 오동규님 말씀에 한 말씀 덧붙이겠습니다.

      DB쪽 튜닝을 아는 사람일수록 종료일자를 비판없이 수용하는 것이 아니라 점이력을 사용하면 쿼리가 위와 같이 복잡해지고 성능에도 별로 좋지 않다는 사실을 잘 알기 때문에 선분이력을 선호하는 것이 아닐까요? (물론 튜닝실력이 어설프기 때문에 무비판적으로 선분이력을 따르는 분들도 계십니다.)
      튜닝을 모르는 모델러는 그런 사실을 잘 모르니까 간단하게 점이력으로 설계하는 것이 아닐까요? (물론 튜닝을 잘 알면서 점이력을 선호하는 분들도 계십니다.)

      실제 프로젝트를 해 보면 현업 담당자의 요구사항은 매우 복잡하고 다채롭습니다. 그런 요구사항을 잘 수용하고 확장성 있는 시스템을 구축하려면 기준성 데이터에 대한 이력관리가 매우 중요하고, 그것을 잘 활용할 수 있도록 설계해야 합니다. 어떻게 하는게 효과적일까 고민하다가 누군가 선분이력을 고안했고, 많은 분들이 그것을 받아들여 잘 활용하고 있습니다.
      물론 선분이력이 어울리지 않는 부분에까지 그것을 적용해 역효과를 내는 분들도 계시겠지만, 그런 경우를 보셨다고 해서 선분이력 무용론을 펼치시는 것은 좀 지나치다는 생각이 듭니다.
      몇 줄짜리 간단한 테스트 결과만으로 기존 방식이 잘못됐다고 자꾸 주장하지 않으셨으면 좋겠습니다. 스크린 골프 실력이 그린에서도 잘 먹힐까요?

      앞선 글에서 주장하신 index_desc 힌트와 rownum = 1 조건 불가론도 그렇습니다. 옵티마이저는 매우 보수적으로 의사결정을 하기 때문에 first_row(min/max) 오퍼레이션이 작동하지 않는 경우가 있습니다. 그런데 성능 요건이 충족돼야 고객이 만족한다면 어쩌시겠습니까? 그러면 "불가피하게" index_desc 힌트와 rownum 조건을 써야 할 수도 있습니다. 그럼에도 "어떤 이유로도 받아 들여서는 안 된다"시니 참 답답한 마음이 듭니다. 제시하신 쿼리 패턴이 모든 업무 유형을 커버할 수 있다고 생각하셨는지요? 이 부분은 제가 시간날 때 그쪽 코너에 다시 올릴테니 거기서 의견 나누시죠.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.21 19:55 신고  댓글주소  수정/삭제

      안녕하세요. 오동규 입니다.
      두분이서 치열한 토론을 하셨네요. 그리고 저에게도 한마디 하셨네요.
      "스크린 골프실력이 그린에서 잘 먹힐 까요?"라고 하셨군요. 제가 실력이 별로 없다는 것은 인정합니다. 그리고 저에게 그러셔서 다행입니다. 다른분들에게 그러시면 곤란 합니다.^^ 토론이 자칫 감정적이거나 특정인을 비하하는 것으로 흐를 수 있는것 같습니다. 될수있으면 감정을 배제하시고 논리적으로 대응해 주시길 바랍니다.

    • 무대리 2010.11.21 23:10 신고  댓글주소  수정/삭제

      오동규 님이 실력 없다고 얘기한 것이 아니니 오해 마시기 바랍니다. 간단한 테스트 결과만으로 설명하기에는 시스템과 업무적 특성이 매우 복잡하다는 점을 얘기하고 싶었습니다. 저도 골프는 쳐 본 적이 없지만, 필드에 나가면 바람과 지형, 잔디 상태 등에 따라 돌발 변수가 많다고 들었습니다. 시스템 개발도 마찬가지라고 생각합니다.
      약간의 관리적 비용이 생기는 것을 알면서도 그것을 감수하고 차선(?)을 선택하거나, 전략적인 판단에 따라 그렇게 해야 하는 경우가 생깁니다. 그런 점을 감안하면서 기존 방식을 비판하셨으면 좋겠습니다. 물론 본래 의도가 copy & paster를 비판하려 한 것임은 저도 잘 압니다.
      기분 나쁘셨다면 사과드리죠.

  10. 나그네 2010.12.22 00:00 신고  댓글주소  수정/삭제  댓글쓰기

    우선 좋은 글 공유해 주시는 오동규님께 감사를 드리고 있습니다.
    마지막으로 선분이력님과 오동규님의 토론 때문에 점이력, 선분이력을 좀 더 상세하게 이해할 수 있게 되어서 감사드립니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.12.22 11:22 신고  댓글주소  수정/삭제

      나그네님 반갑습니다.
      점이력과 선분이력을 상세히 이해하셨다니 글의 의도대로 된것 같습니다. 앞으로도 다양한 소통을 하겠습니다.

      즐거운 크리스마스 되시기 바랍니다.
      감사합니다.


부제 : min/max값을 안전하고 빠르게 구하는 방법


최종일자, 최종순번을 구하기 위한 전통적인 방법은 index desc 힌트와 rownum = 1 조합이었다. 하지만 이것은 대단히 위험한 방법이다. 왜냐하면 튜닝을 하기 전에 값이 맞아야 하며, 성능튜닝은 그 이후의 문제이기 때문이다. 위의 방법은 인덱스의 구성컬럼이 변경 혹은 삭제되거나, 인덱스명이 바뀌면 max 값을 구하지 못한다. 즉 성능을 향상시키기 위해 값이 틀릴 수 있는 가능성을 열어놓은 것이다. 이런 방법은 어떤 이유로도 받아들여져서는 안 된다. 나 또한 예전에 이런 방법을 사용했지만 이는 필자의 명백한 잘못이었다.

 

올바른 값을 얻어야 하고 성능도 충족해야 하므로 오라클은 first_row(min/max) operation을 내놓았다. 따라서 우리는 index_desc + rownum 대신에 first_row(min/max)을 사용해야 한다. 그런데 항상 first_row(min/max)를 사용해야 할까? first_row(min/max)가 비효율적인 경우는 index_desc + rownum 조합을 생각해 볼 수 있다. 하지만 인덱스가 변경 및 삭제될 때 성능이 느려질지언정 답이 틀리면 안 된다. 만약 max가 아닌 잘못된 값으로 update 되었다고 상상해보라. 큰일이다. 원복시키기도 어렵다. update 가 여러번 되었을 수 있기 때문이다.

 

환경 :Oracle11g R2

 

CREATE INDEX ix_cust_channel_time ON SALES (CUST_ID, CHANNEL_ID, TIME_ID)  ;

CREATE INDEX ix_cust_time_channel ON SALES (CUST_ID, TIME_ID, CHANNEL_ID)  ;
CREATE INDEX ix_time_cust_channel ON SALES (TIME_ID, CUST_ID, CHANNEL_ID)  ;

 

인덱스와 where 조건이 완벽할 때

 

SELECT /*+ gather_plan_statistics INDEX(s ix_cust_channel_time) */

       MAX (time_id)

  FROM sales s

 WHERE cust_id = :v_cust   --30777 대입

   AND channel_id = 2;

 

------------------------------------------------------------------------------------------------------

| Id  | Operation                    | Name                 | Starts | A-Rows |   A-Time   | Buffers |

------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |                      |      1 |      1 |00:00:00.01 |       3 |

|   1 |  SORT AGGREGATE              |                      |      1 |      1 |00:00:00.01 |       3 |

|   2 |   FIRST ROW                  |                      |      1 |      1 |00:00:00.01 |       3 |

|*  3 |    INDEX RANGE SCAN (MIN/MAX)| IX_CUST_CHANNEL_TIME |      1 |      1 |00:00:00.01 |       3 |

------------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - access("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2)

 

인덱스가 CUST_ID + CHANNEL_ID + TIME_ID로 되어 있는 경우는 문제가 없다. first_row(min/max) operation을 사용할 수 있고 비효율이 없기 때문에 값이 틀려질 수 있는 index_desc + rownum을 사용해선 안 된다.

 

where 조건에 인덱스의 중간 컬럼이 빠졌을 때  

 

SELECT /*+ gather_plan_statistics INDEX(S IX_CUST_TIME_CHANNEL) */

       MAX (time_id)

  FROM sales s

 WHERE cust_id = :v_cust   --30777 대입

   AND channel_id = 2;

 

------------------------------------------------------------------------------------------------------

| Id  | Operation                    | Name                 | Starts | A-Rows |   A-Time   | Buffers |

------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT             |                      |      1 |      1 |00:00:00.01 |       3 |

|   1 |  SORT AGGREGATE              |                      |      1 |      1 |00:00:00.01 |       3 |

|   2 |   FIRST ROW                  |                      |      1 |      1 |00:00:00.01 |       3 |

|*  3 |    INDEX RANGE SCAN (MIN/MAX)| IX_CUST_TIME_CHANNEL |      1 |      1 |00:00:00.01 |       3 |

------------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - access("CUST_ID"=:V_CUST)

       filter("CHANNEL_ID"=2)

 

인덱스가 CUST_ID + TIME_ID + CHANNEL_ID 로 되어 있는 경우를 보자. 인덱스의 중간컬럼이 where절에 빠져있지만  CUST_ID의 선택도가 워낙 좋으므로 문제가 되지 않는다. first_row(min/max) operation을 그대로 사용하면 된다.

 

인덱스의 선두 컬럼이 where 조건에서 빠지는 경우

 

SELECT /*+ gather_plan_statistics INDEX(S IX_TIME_CUST_CHANNEL) */

       MAX (time_id)

  FROM sales s

 WHERE cust_id = :v_cust  --30777 대입

   AND channel_id = 2;

 

-----------------------------------------------------------------------------------------------------

| Id  | Operation                   | Name                 | Starts | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT            |                      |      1 |      1 |00:00:00.02 |     755 |

|   1 |  SORT AGGREGATE             |                      |      1 |      1 |00:00:00.02 |     755 |

|   2 |   FIRST ROW                 |                      |      1 |      1 |00:00:00.02 |     755 |

|*  3 |    INDEX FULL SCAN (MIN/MAX)| IX_TIME_CUST_CHANNEL |      1 |      1 |00:00:00.02 |     755 |

-----------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - filter(("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2))

 

인덱스가 TIME_ID + CUST_ID + CHANNEL_ID로 구성되어 있을때 인덱스의 선두 컬럼이 where 조건에서 빠졌다. 그로 인해 Index full scan이 발생하여 쓸모 없는 752블록을 Scan하였다. 즉 인덱스를 끝부분부터 계속 scan하다가 운 좋게 755 블록을 scan해보니 cust_id = 30777 channel_id  = 2을 만족하는 값을 모두 처리한 것이다. 운이 나쁘면 인덱스를 모조리 읽어야 할 수도 있다.

 

서브쿼리나 인라인뷰를 이용하여 집합을 추가하자는 의견에 대해

인덱스의 선두 컬럼이 where 조건에서 빠지는 경우는 강제로 집합을 추가하자는 의견이 있다. 아래의 SQL이 그것이다.

 

SELECT  TIME_ID

  FROM  ( SELECT /*+ LEADING(C) INDEX_DESC(S IX_TIME_CUST_CHANNEL)  */  S.time_id

            FROM sales S,

                 (SELECT TRUNC(SYSDATE) - LEVEL + 1 AS time_id

                   FROM DUAL

                CONNECT BY LEVEL <= 7300 ) C

           WHERE S.cust_id = :v_cust   --30777

             AND S.channel_id = 2

             AND S.time_id = C.time_id )

 WHERE ROWNUM = 1;

 

---------------------------------------------------------------------------------------------------------

| Id  | Operation                       | Name                 | Starts | A-Rows |   A-Time   | Buffers |

---------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                |                      |      1 |      1 |00:00:00.02 |     512 |

|*  1 |  COUNT STOPKEY                  |                      |      1 |      1 |00:00:00.02 |     512 |

|   2 |   NESTED LOOPS                  |                      |      1 |      1 |00:00:00.02 |     512 |

|   3 |    VIEW                         |                      |      1 |   3484 |00:00:00.02 |       0 |

|   4 |     CONNECT BY WITHOUT FILTERING|                      |      1 |   3484 |00:00:00.01 |       0 |

|   5 |      FAST DUAL                  |                      |      1 |      1 |00:00:00.01 |       0 |

|*  6 |    INDEX RANGE SCAN DESCENDING  | IX_TIME_CUST_CHANNEL |   3484 |      1 |00:00:00.01 |     512 |

---------------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   6 - access("S"."TIME_ID"=INTERNAL_FUNCTION("C"."TIME_ID") AND "S"."CUST_ID"=:V_CUST AND

              "S"."CHANNEL_ID"=2)

 

이렇게 하니 Scan한 블럭수가 1/3 정도 줄어들었다. 하지만 불필요한 조인이 3484번이나 발생하였다. 이것이 최적은 아니다. 또한 명시적으로 max값을 보장하게 작성된 SQL도 아니다.

 

Index_ss 힌트를 사용했다. 하지만……

위의 예에서 보듯이 인덱스의 선두 컬럼이 조건절에 없을때 이빨이 빠진 집합을 추가하는 것과 first_row(min/max)를 사용하는 것은 둘다 비효율적이다. 그러므로 index_desc + rownum을 사용하되 값이 바뀌지 않도록 해야 한다. 그런데 인덱스의 첫 번째 컬럼이 조건 절에서 빠졌으므로 index_ss_desc + rownum을 사용해야 한다. 이것이 가능할까? SQL을 바꾸지 않으면 불가능하다. 아래의 SQL을 보자.

 

SELECT /*+ gather_plan_statistics INDEX_SS(s ix_time_cust_channel) */

       MAX (time_id)

  FROM sales s

 WHERE cust_id = :v_cust     --30777

   AND channel_id = 2;

 

-----------------------------------------------------------------------------------------------------

| Id  | Operation                   | Name                 | Starts | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT            |                      |      1 |      1 |00:00:00.02 |     755 |

|   1 |  SORT AGGREGATE             |                      |      1 |      1 |00:00:00.02 |     755 |

|   2 |   FIRST ROW                 |                      |      1 |      1 |00:00:00.02 |     755 |

|*  3 |    INDEX FULL SCAN (MIN/MAX)| IX_TIME_CUST_CHANNEL |      1 |      1 |00:00:00.02 |     755 |

-----------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - filter(("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2))

 

Min/Max Index Skip Scan을 동시에 사용할 수 없다

min 혹은 max 함수를 사용했을 때 Oracle9i 버전과는 달리 10g 11g에서는 index skip scan을 사용할 수 없다. 힌트를 추가해도 마찬가지이다. 아래의 10053 trace를 보자.

 

***************************************

SINGLE TABLE ACCESS PATH

  Single Table Cardinality Estimation for SALES[S]

  ColGroup (#1, Index) IX_TIME_CUST_CHANNEL

    Col#: 2 3 4    CorStregth: 185.95

  ColGroup Usage:: PredCnt: 2  Matches Full:  Partial:

  Table: SALES  Alias: S

    Card: Original: 918843.000000  Rounded: 33  Computed: 32.54  Non Adjusted: 32.54

kkofmx: index filter:"S"."CUST_ID"=:B1

 

kkofmx: index filter:"S"."CHANNEL_ID"=2

 

  Access Path: index (Min/Max)

    Index: IX_TIME_CUST_CHANNEL

    resc_io: 3.00  resc_cpu: 21564

    ix_sel: 1.000000  ix_sel_with_filters: 0.000035

 ***** Logdef predicate Adjustment ******

 Final IO cst 0.00 , CPU cst 50.00

 ***** End Logdef Adjustment ******

 ***** Logdef predicate Adjustment ******

 Final IO cst 0.00 , CPU cst 50.01

 ***** End Logdef Adjustment ******

    Cost: 5.28  Resp: 5.28  Degree: 1

  Best:: AccessPath: IndexRange

  Index: IX_TIME_CUST_CHANNEL

         Cost: 5.28  Degree: 1  Resp: 5.28  Card: 1.00  Bytes: 0

***************************************

 

힌트를 사용했지만 Index Skip Scan은 고려조차 되지 않는다. 위의 Trace를 보면 "first row(Min/Max)가 가능하다면 Index Skip Scan을 고려하지 않는 로직이 10g 11g의 옵티마이져에 존재한다라고 추론할 수 있다. 인덱스와 where 절이 일치하지 않는 상태라 하더라도 비효율적인 index full scan (Min/Max)에 만족할 수는 없다. 바로 이럴 때 index_desc rownum 조합을 답이 틀려질 수 없도록 사용하면 된다.

 

아래처럼 max 함수를 제거하면 Index Skip Scan을 사용할 수는 있다.

 

SELECT /*+ INDEX_SS_DESC(S IX_TIME_CUST_CHANNEL) */

       time_id

  FROM sales s

 WHERE cust_id = :v_cust  --30777

   AND channel_id = 2

   AND ROWNUM = 1;

 

-----------------------------------------------------------------------------------------------------

| Id  | Operation                   | Name                 | Starts | A-Rows |   A-Time   | Buffers |

-----------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT            |                      |      1 |      1 |00:00:00.01 |     264 |

|*  1 |  COUNT STOPKEY              |                      |      1 |      1 |00:00:00.01 |     264 |

|*  2 |   INDEX SKIP SCAN DESCENDING| IX_TIME_CUST_CHANNEL |      1 |      1 |00:00:00.01 |     264 |

-----------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter(ROWNUM=1)

   2 - access("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2)

       filter(("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2))

 

Max를 없애면 index skip scan을 사용할 수 있다. 하지만.....
블록수가 755에서 264 1/3으로 줄어들었다. 하지만 인덱스가 수정 및 삭제되면 답이 틀릴 수 있으므로 위험하긴 마찬가지 이다. 따라서 다음의 SQL처럼 사용해야 한다.

 

안정적이고 성능을 고려한 SQL  

 

SELECT MAX(time_id)

  FROM  ( SELECT /*+ INDEX_SS_DESC(S IX_TIME_CUST_CHANNEL) */ time_id

            FROM sales S

           WHERE cust_id = :v_cust                                             --30777

             AND channel_id = 2

           ORDER BY time_id DESC)

 WHERE ROWNUM = 1; 

 

-------------------------------------------------------------------------------------------------------

| Id  | Operation                     | Name                 | Starts | A-Rows |   A-Time   | Buffers |

-------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |                      |      1 |      1 |00:00:00.01 |     264 |

|   1 |  SORT AGGREGATE               |                      |      1 |      1 |00:00:00.01 |     264 |

|*  2 |   COUNT STOPKEY               |                      |      1 |      1 |00:00:00.01 |     264 |

|   3 |    VIEW                       |                      |      1 |      1 |00:00:00.01 |     264 |

|*  4 |     INDEX SKIP SCAN DESCENDING| IX_TIME_CUST_CHANNEL |      1 |      1 |00:00:00.01 |     264 |

-------------------------------------------------------------------------------------------------------

 

Predicate Information (identified by operation id):

---------------------------------------------------

   2 - filter(ROWNUM=1)

   4 - access("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2)

       filter(("CUST_ID"=:V_CUST AND "CHANNEL_ID"=2))

 

ORDER BY를 사용했지만 인덱스의 영향으로 SORT를 하지 않으므로 성능저하도 없다. 또한 인라인뷰 내에서 ORDER BY를 사용하고 외부에서 ROWNUM을 사용했기 때문에 인덱스가 수정 및 삭제되더라도 성능이 느려질 뿐 값이 틀려질 수는 없다. 위의 SQL에서 마지막에 max 함수를 사용한 이유는 where조건에 만족하는 건수가 없더라도 null을 출력해야하기 때문이다. 앞으로 index_desc + rownum 조합을 사용할 것이라면 위의 방법을 사용하길 바란다.
 

결론

1. Index_desc + rownum을 사용하지 말고 first_row(min/max)를 사용하라

2. 1번이 비효율적인 경우에만 index_desc(혹은 index_ss_desc) + order by를 사용하고 뷰로 감싸라.
    그리고 뷰 외부에서 rownum을 사용하라.

3. first_row(min/max)를 사용할 수 있는 환경에서는 index skip scan을 사용할 수 없다. 꼭 사용하려면 집계 함수를 제거하라.

이렇게 하면 성능과 안정성을 동시에 고려할 수 있다.

 

글의 배경
이런 이야기를 하는 이유는 비판적 사고의 필요성 때문이다. 개발자에게 인라인뷰와 Order by가 없는 Index_desc + Rownum의 위험성을 설명해주었더니 나에게 책을 가져온다. 나는 본적이 없지만 아주 좋은 SQL 튜닝 책이라고 한다. 그것도 어려운 영문 책이다. 열심히 공부하는 사람임에 틀림없다. 하지만 개발자의 한마디 때문에 그사람의 인상이 바뀌어 버렸다. 그 한마디는 이 책에 Index_desc + Rownum을 사용하라고 되어있습니다.” 였다. 그것이 얼마나 위험한 것인지 여러번 증명하고 설득해 보았으나 맘을 바꾸기는 불가능 하였다. 이래서는 곤란하다. 책을 성경이나 불경처럼 여기고, 저자를 종교의 교주로 여겨서는 안 된다. 이론은 반론이 증명되면 폐기될 수 있다. 하지만 가치관이 개입된 믿음이나 신념은 좀처럼 바뀌지 않는다. 어떠한 증거를 내놓아도 그렇다. 신념은 종교생활에 사용했으면 한다.


책의 내용 중에 잘못된 것이 있으니 나쁜 책이라고 말하는게 아니다. 필자의 서적을 포함해서 모든 책의 내용은 틀릴 수 있다. 정작 나쁜 것은 책이나 저자가 종교화될 때이다. 그런 무 비판적 종교는 이공계 사람에게 치명적이다. 비판적 사고는 엔지니어와 과학자의 버팀목이자 과학기술을 발전시키는 핵심이기 때문이다. 널리 알려진 과학 논쟁인 쿤과 포퍼의 대결에서도 이러한 언급은 드러난다. 두명 모두 비판적 사고는 반드시 필요하다고 하였다. 다만 시기의 문제일 뿐이다.

답답한 마음에 글을 올려보았다. 앞으로 이런 글을 다시 쓰고 싶지 않다.

"신앙은 믿음으로 이루져야한다. 하지만 과학은 비판과 증명으로 이루어져야 한다." 


신고
Posted by extremedb

댓글을 달아 주세요

  1. 왕만두 2010.11.09 15:44 신고  댓글주소  수정/삭제  댓글쓰기

    First Rows 가 나온지 수년이 지났지만 아직도 개발자들이 index_desc 를 사용하는 경향이 매우 높더군요.
    아마도 copy & paster 의 잔재가 아닌가 싶습니다.
    오수석님같은 분들께서 이런 글을 자주 연재해주고면서 분위기를 만들어가야 개발자들이 조금씩 변할것 같습니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.09 17:14 신고  댓글주소  수정/삭제

      왕만두님 반갑습니다.
      index_desc + rownum 조합은 아직도 많이 사용합니다.
      copy의 영향도 있을 것입니다.
      위험성을 알리는게 급선무입니다.^^

  2. 라튜니 2010.11.10 12:32 신고  댓글주소  수정/삭제  댓글쓰기

    항상 좋은 정보 감사합니다.

    비슷한 사례로
    페이징 처리(ROWNUM) 시 인라인 뷰안에서 ROWNUM으로 건수를 제한할 경우도
    같은 경우로 볼 수 있겠네요. 인덱스가 변경되거나 삭제될 경우 정렬순서를 보장할 수 가 없으니까요.

    인덱스를 사용하여 정렬을 대신하는 경우라도 페이징 처리시 인라인 뷰에서 반드시 ORDER BY를 명시하고
    ROWNUM은 인라인뷰 밖에서 WHERE 조건으로 처리토록 하여야 할 것 같습니다.
    TOP-N 쿼리와 같은 형식으로 말이죠. 실제 오라클은 정렬을 대신하는 인덱스가 있다면 OBYE 로 정렬을 제거하고
    TOP-N 처리가 아닌 페이징 처리로 처리를 할 테니까요.
    만약 정렬을 대신하는 인덱스가 없다면 정렬을 할 것이고 TOP-N쿼리로 처리될 테니까 말이죠.
    (물론 정렬부하 때문에 처리시간은 더 소요가 되겠지요)

    결론적으로 어떠한 경우에도 Hint 여부 때문에 최종 결과SET이 달라져서는 안되도록 쿼리를 작성하는 습관을 가져야 할 거 같습니다.

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.10 23:16 신고  댓글주소  수정/삭제

      라튜니님 처음 뵙네요.
      말씀하신대로 페이징 처리할 때도 같은 원리를 적용해야 안전할 것입니다.
      OBYE라고 하시는걸 보니 logical optimizer를 잘 아시는 분 같습니다.

  3. salvation 2010.11.15 09:21 신고  댓글주소  수정/삭제  댓글쓰기

    앞으로 위의 케이스안에서도 min/max가 일어나지 않는 케이스를 다루면 더욱 좋을거 같습니다

    • Favicon of http://scidb.tistory.com BlogIcon extremedb 2010.11.15 09:48 신고  댓글주소  수정/삭제

      min/max 가 발생하지 않는 케이스에도 order by를 사용하고 뷰로 감싸고 뷰 외부에서 rownum을 사용하는 방법을 쓰면 해결이 가능합니다.

      본문의 세가지 케이스는 모두 min/max 가 발생한 케이스 네요. min/max 가 발생하지 않는 케이스를 고려하지 않았군요. 좋은 의견 감사합니다.

  4. Favicon of http://1ststreet.tistory.com BlogIcon SITD 2011.05.13 09:53 신고  댓글주소  수정/삭제  댓글쓰기

    저희 회사 상사분께서 항상 애기하시던게 생각나네요

    내가 한 거 곧이 곧대로 믿지 말라고..

    믿지 않으려면 의심을 해야 하고, 한번 더 머리속에서 정리를 통해 완전히 이해됐고, 제 스스로 판단했을 때도 맞을 때만 믿게 되더라구요.

  5. feelie 2011.07.22 17:32 신고  댓글주소  수정/삭제  댓글쓰기

    first_rows operation 이 안나와서 이런저런 테스트를 해봤습니다.
    1. 인덱스 스캔만 한경우에 first_rows operation 이 나옴
    2. 인덱스 스캔-table access을 한경우는 first_rows operation 이 안나옴
    인덱스 스캔인 경우만 first_rows operation 이 나오는건가요???

    테이블스 Access을 해도 first_rows operation이 나오는데 문제가 없을것 같은데요...

  6. JK 2011.07.28 23:00 신고  댓글주소  수정/삭제  댓글쓰기

    저도 얼마전에 index_desc + rownum 을 활용하여 튜닝을 한 경험이 있었습니다. 이 튜닝이 얼마나 위험성이 있는지를 알려주셔서 감사 합니다. 좋은 것 하나 배워갑니다.

  7. 구로동 2011.09.01 08:50 신고  댓글주소  수정/삭제  댓글쓰기

    dba출신 pm이 항상 index_desc + rownum 으로 튜닝하는 모습을 종종 보고 따라했는데 위험한 것이었군요.
    실험해보니 실제 값이 잘못 나오는 것을 눈으로 확인했습니다.
    감사합니다 잘배워갑니다.

  8. 김영석 2013.05.04 10:15 신고  댓글주소  수정/삭제  댓글쓰기

    index_desc + rownum 구문을 보면서 저도 동일한 우려를 했는데,
    이렇게 해답을 제시해 주셔서 감사합니다.

  9. Favicon of http://tastegod.co.kr BlogIcon TasteGod 2017.06.16 09:17 신고  댓글주소  수정/삭제  댓글쓰기

    안녕하세요 질문 좀 드려도 될까요? IX_TIME_CUST_CHANNEL 생성시 time_id 에 desc 옵션을 안주고 생성해도 되는것이죠?


부제: 긴 글을 요약해야 하는 이유

 

우리는 매일 많은 시간을 투자하며 글을 쓴다. 기획서, 제안서, 보고서, 업무요청서, 분석서, 문제해결서처럼 Business와 관련된 것으로부터 블로그, 이메일, 메신저, 일기처럼 개인적인 것까지 글의 종류는 많다. 그런데 Business와 관련된 글은 대부분 딱딱하고, 복잡하고, 분량이 많아서 보기 힘들다. 업무자체가 딱딱하고, 복잡한 것은 어쩔 수 없지만 글의 분량은 조절 할 수 있다. 아니, 조절해야 한다. 분량을 조절하지 않으면 당신의 글은 읽히지도 않고 휴지통으로 갈 것이다. 왜냐하면 몇 십 페이지 혹은 몇 백 페이지에 달하는 글을 모두 읽은 후 의사를 결정하는 사람은 많지 않기 때문이다. 만약 그 글을 모두 읽었다고 해도 다음과 같은 말을 들을 것이다. “보고서가 35페이지나 되니 열심히 작성했군. 그런데 도대체 뭘 말하고 싶은 거야? 다시 작성해 주게. 이번에는 핵심사항만 보고하길 바라네”

 

One Page Proposal은 무엇인가?

글을 읽는 이유는 내용 중 핵심을 파악하고 작성자의 의도를 간파하는 것이다. 그런데 분량이 많은 글은 의도를 파악하기 힘들다. 그래서 글은 짧고, 쉽고, 명확하게 써야 한다. One Page Proposal의 목적은 작성자의 의도를 작은 분량(1 page)으로 간결하고 읽기 쉽게 요약하는 것이다. 이 책에서 제시하는 작성지침에 따른다면 목적을 달성할 수 있다. 이 글에서는 작성지침과 그 지침을 따르는 예제를 보여줄 것이다. 물론 이것들은 책의 내용을 요약한 것이다.

 

One Page Proposal 구조(작성지침 1번부터 9번까지) 

1. 제목(신문의 헤드라인에 해당함)
제목은 이야기의 헤드라인이며 주제를 알려주는 상표 기능을 한다.


2.
부제(신문의 소제목에 해당함)
제목을 보강해라. 기획서의 주제를 더욱 명확히 밝히고, 묘사적인 단어와 구를 써서 좀 더 표현력 있게 만들어 읽는 사람의 호기심을 자아낼 수 있어야 한다

 
3.
목표(이 글을 읽어야 하는 이유
)
"
무슨 일을 해보겠다는 겁니까?" 혹은 더 상세하게 "이 기획서가 통과되면 어떤 일을 성취하시겠다는 겁니까?"에 대한 대답이다. 짧게 1~2 줄로 표현한다.


4. 2
차 목표(장점을 부각시킴)
목적을 상세히 밝힌다. 목표 아래에 대여섯 개 수준으로 작성한다. (필자는 생각이 다르다. 2~3개정도로 작성하는 것이 적절하다) 2차 목표는 1차 목표를 보완하고 장점을 부각시켜 읽는 사람의 동의를 얻어내야 한다. 읽는 사람이 첫 번째 목표에 어느 정도 수긍이 갔다면 두 번째 목표에서는 수익을 강조함으로써 더욱 강한 이미지를 줄 수 있다. 2차 목표는 .
부호로 시작한다.


5.
논리적 근거(목표를 실행해야 하는 이유와 근거)

본문의 시작이며 글의 서두에 해당한다. 이 제안을 받아들여야 하는 이유와 근거를 제시한다. 논리적 근거는 목표가 불러일으킨 의문점들을 미리 예상하고 답변함으로써 반대세력을 설득하고 목표를 지원하는 역할을 한다. 논리적 근거는 다음의 세 가지를 포함해야 한다


-
설정(근거, 상황, 그리고 실행자 혹은 실행조직의 장점) 

. 읽는 사람의 관심을 잡는다.
.
당신이 누구이며 어떤 지식을 갖추고 있는 지 알게 한다.

. 기획서의 내용을 뒷받침 할 수 있는 적절한 근거와 상황을 요약한다.


-
매력포인트(이 방법이 최고의 해결책인 이유)
주장하는 바의 클라이맥스이다. 기획서를 실행시키면 목표와 2차 목표가 완수될 것이라는 주장을 보강하라. 현상들을 반박할 여지가 없고, 시기 적절한 것들이어야 하며, 현 상황에서 당신의 프로젝트가 최고의 해결책인 이유를 설명할 수 있어야 한다.


-
설득(그로 인해 얻는 이익)
글의 제안이 수락된다면 어떻게 되나? 그로 인해 얻는 이익 즉 목표와 2차 목표가 실현되는 이유와 방법을 설명하라.


6.
재정(돈은 얼마나 드나?)
일을 실행하는데 드는 비용은 구체적으로 얼마인가? 또 어떻게 자금을 마련할 수 있나? 재정은 돈과 관련된 것이 아니라면 생략이 가능하다.


7.
현재 상태(이 제안을 실행하기 위한 상황과 고려사항)
이 제안을 실행하기 위한 환경은 어떤가? 여기서도 돈이 관련이 없다면 그 부분은 생략해도 된다.

- 이 제안을 위해 미리 준비한 것은 무엇인가?
-
자금을 얼마 동안 조달했는가? 그 자금의 성격은? 액수는? 조건이 따르는 자금인가?(생략가능
)
-
비재정적 성격의 지원이 있는가? 있다면 누구로부터
?
-
사업이 진행되는 과정에 걸림돌이 있는가? 사람인가, 회사인가, 정부기관인가
?
-
형식적인 절차나 법률적인 검토가 필요한 것이 있는가?


8.
실행(글의 결론에 해당함)
읽는 사람이 무엇을 해야 하는가? 읽는 사람이 실행할 수 있는 수준에서 어떻게 해야 당신을 도울 수 있는지 말하라. 최소한 자세한 제안서를 보기원한다면 기획자에게 연락을 하라고 부탁해야 한다
.

9. 날짜와 이름, 서명(서명은 생략가능)

 

One Page Proposal 예제


 

쿠푸의 대() 피라미드
영원불멸의 기하학적 설계로 창조된, 파라오를 기리기 위한 대 기념물

목표 : 이집트의 위대함을 기리고 파라오에게 영원한 생명을 보장하는 기념물을 건축하기 위한 것.
 .
이집트의 최신 기술을 보여주기 위한 것

 .
왕비에게 영원한 휴식 장소를 제공하기 위한 것


 
위대한 파라오 쿠푸는 자신과 이집트의 위대함을 반영하는 기념물을 건설한다는 계획을 공표하였다. 나라를 최초로 통일한 나르메르(Narmer) 왕이 아비도스의 수혈식 분묘에 묻힌 이후, 이집트의 파라오는 신과 인간 모두에게 유일한 존재로 인정받았다. 그럼에도 불구하고 이전의 무덤들은 태양신 라(Ra)와 파라오의 근복적인 관계를 제대로 반영하지 못했다. 수혈식 분묘에 얹힌 구조물 역시 파라오가 내세를 여행할 수 있을 만큼 옥체와 보물을 충분히 보호하지 못하고 있다. 선왕인 스네프루(Snefru)의 무덤이 도굴된 것만 봐도 그 사실을 알 수 있다.

 
왕실에서 가장 현식적인 건축가인 헤몬은 기념물의 새롭고 완벽한 디자인을 구상해 대 피라미드의 모양으로 발전시켰다. 고안된 디자인은 독특하면서도 기존 건축물과 이집트 전통을 헤치지 않는 연계성을 지닌다. 헤몬은 파라오의 궁전에서 대규모 프로젝트를 수행한 경험이 있다. 파라오의 일가 중 한 명이며, 관리 능력 또한 뛰어나다
.

 
제안한 건축의 장점 중에는 다음과 같은 것들이 포함된다. 1)기자(Giza) 평야의 가장 단단한 암석 위에 세워질, 피라미드를 위한 최고의 자리. 2) 세계 최대의 기념 건축물 3) 남북 방향의 별과 피라미드를 일직선상에 놓아 파라오가 항상 떠오르는 태양을 향할 수 있도록 한 완벽한 설계. 4) 도굴 방지 기술을 사용하여 파라오와 왕비가 내세를 안전하게 여행할 수 있도록 함. 5) 전체 구조물과 최대 편차 8인치 이내의 기술. 6) 세계 최고의 품질을 자랑하는 투라(Tura)의 석회암 외벽
.

재정 : 세계 최대의 건축물인 대 피라미드를 완성하려면 이집트 국고의 1/4이 필요하다. 하지만 셈나(Semna) 서쪽으로부터 델타에 이르는 지역의 추수를 고려해 세금을 증가시키면, 그 액수는 선왕이 지출한 액수보다 5% 초과할 뿐이다. 파라오의 기술자들이 예비 설계도에 따라 측정한 바에 따르면 482피트의 피라미드를 건축하는 데 2.6톤 무게의 돌이 대략 230만 개 필요할 것이다. 건축 비용은 공사 시산인 23년에 걸쳐 점차적으로 지출될 것이다
.

현재 상태 : 예비 설계도는 완성되었음. 기자 근처의 채석장에서 석회암과 화강암을 공급받기로 약속되었음. 램프에 쓰일 금과 삼나무는 이집트의 새 영토인 비블로스의 누비아 저지대에서 공급 받을 수 있음. 인력관리국에서 범람 시기에 10만 명의 장인과 노동자를 공급해 줄 수 있으며, 그렇게 되면 2528년까지 공사가 완료될 수 있음
.

실행 : 위대한 파라오 쿠푸는 헤몬을 건설부 총신으로 임명하고, 그에게 대 피라미드 공사의 권한을 줄 것.

 

                                                                                                                    2010-04-01 홍길동

 

활용방안

필자는 One Page proposal의 방법을 분석서, 보고서, 기획서의 첫 페이지로 이용하고 있다. 첫 페이지 이후에는 분석서, 보고서, 기획서의 본문을 첨부하면 된다. 또한 발표(프리젠테이션)자료를 만들 때는 마지막 부분의 요약페이지로 One Page proposal을 이용한다. 이것의 활용방안은 무궁무진하다. 잘 생각 해보면 글을 요약하는 원리는 말을 할 때에도 사용할 수 있다.
 

결론

긴 글을 1 page로 요약한다면 그 글은 선택될 확률이 높다. 또한 짧은 글은 읽는 사람에게 의사를 결정할 자유를 준다. 그렇지만 아직도 많은 수의 글이 무지막지한 분량 때문에 의사결정의 단계까지 가지도 못하고 폐기되고 있다. 오늘도 우리는 정보의 홍수 속에 살고 있고, 그 중에는 수없이 많은 글들이 있다. 그것들을 다 읽을 수는 없는 노릇이 아닌가?

THE ONE PAGE PROPOSAL(강력하고 간결한 한 장의 기획서) 상세보기
패트릭 G. 라일리 지음 | 을유문화사 펴냄
세상에거 가장 강력한 기획서는 한 장으로 압축된 간결하고 인상적인 기획서다. 이 책은 어떻게 그런 기획서를 작성할 것인지 구체적인 방법을 일러준다. 책이 다루는 주제 만큼 책 전체의 분량도 상당히 간결하다.



 


신고
Posted by extremedb

댓글을 달아 주세요

  1. 타락천사 2010.11.10 09:25 신고  댓글주소  수정/삭제  댓글쓰기

    저에게 절실한 부분이네요..
    전 아니지만,.. 능력이 뛰어나도, 그 부분을 표현(보고, 강의, 협의) 할수 있는 능력이 점점 중요한것 같습니다.
    내가 아는것도 중요하지만, 그 부분을 소개, 보고, 협의 설득 할수 있는데 진짜 능력이죠..