타임시리즈 분석시..

  • #3682226
    qqq 24.***.38.152 556

    타임시리즈가 주어지고 3컬럼, a, b c 컬럼 중에 컬럼 b가 컬럼 a, 또는 c 와 어떤 관계가 있는지 알아보려면 어디부터 시작해야 할까요?

    제가 생각했던 방법은
    matplot lib이용해서 대충 분포패턴을 본다음에,
    파이썬 sklearn패키지 이용해서 리니어 리그레션을 이용하던가 해서 approach를 하려고 했는데 그냥 패턴이 없이(없는듯이) 데이터가 뒤죽박죽인것처럼 보여서 도대체 어떻게 어프로치를 해야 모르겠습니다.

    참고할 수 있는 웹페이지라던가 읽을거리라도 포인팅 해주시면 도움될것 같습니다

    • dsfge 24.***.127.213

      세 컬럼이 다 time series인가요..? VAR이라고 찾아보세요. 시계열은 independent데이터가 아니라 linear regression안써요.. AR, ARIMA이런거 써야해요

      • qqq 24.***.38.152

        timeseries, 즉 시점마다 캡쳐된 데이터값과 다른값(컬럼으로 표현된, 역시 타임시리즈) 상관관계가 있나 봐야되서요…
        언급해주신거 찾아보겠습니다. 감사합니다

        이게 scatter plot으로 했을때 패턴이 보이면 어프로치 하기가 쉬울것 같은데, 전혀 패턴이 안보이고 그냥 사각형 안에 무수히 많은점 ;;; 이 찍어있습니다 시퍼렇게 ㅠㅠ

        • dsfge 24.***.127.213

          아 그런거면.. python statsmodels 패키지에서 statsmodels.tsa.statespace.varmax 이거 써보세요order변수만 정해주면 상관관계값 다 나오니다

          • qqq 24.***.38.152

            감사합니다
            VAR써서 상수값 나오는 confusion matrix 구했습니다.

            VARMAX는 이해하기가 어려워서 일단 VAR 써서 했습니다. 찾아보니 VAR가 트렌드 없는 시계열 분석에 쓰이는거라고 나오더라구요.
            제대로 맞는 방향으로 하고 있는거면 좋겠네요 ;;
            방향 찾는데 도움 많이 되었습니다. 감사합니다.

            컴싸 전공으로 회사일하면서 그냥 이런저런 코딩하는 일만 해오다가 이런 통계지식? 요구하는건 첨 해보는데… 공부 많이해야겠네요..

            • dsfge 24.***.127.213

              네 맞아요.. 모델 만들기 전에 detrending하고, seasonality 없애고 하는 전처리 과정이 좀 필요합니다. .. 구글링 함 해보세요

Cancel