Data Scientist 의 업무 중에서

  • #3854061
    Data 73.***.140.60 698

    JD 의 Duty 항목에 아래와 같이 쓰여져 있습니다.
    자바/C# 으로 프런트엔드와 백엔드를 개발 경력만 있어서,
    수학적, 통계적 이론, 분석 모델링, 해석 모델링이라는 말만 들어서는
    정확하게 어떤 업무를 하게 되는지 잘 모르겠습니다.

    쉽게 이해할 수 있는 예 하나를 들어서 설명해 주실 분 계실까 해서,
    질문해 봅니다.

    Applies professional knowledge of computer science, mathematical, statistical theories, techniques, and methods to gather, analyze, design, and construct new processes for analytical modeling, interpreting models, and/or reporting quantitative information, trends, relationships, and correlations among or within data. Advises on the potential benefits/uses of automation to improve the efficiency of program operations. Analyzes a variety of data sources to provide data driven insights to the RAAS organization to streamline processes.

    • 140.***.198.159

      이런거는 chat gpt에 물어보면 될듯.

    • AICPA 198.***.65.197

      쉬운 예로는, 솜사탕을 파는 회사에서 이번 여름에 설탕을 좀 많이 사둘지 적게 사둘지 결정을 해야 하는데, 어떤 지표를 사용할지 부터 어떤 모델링을 적용할지를 다 포괄합니다.

      여태 연간, 분기별 매출량을 지표로 매출을 예측해서 설탕 구입량을 정할 지, 설탕 가격 추위를 분석해서 미리 헤지를 걸어 놓을지, 올 여름에 정책변경에 대한 임팩트를 분석하여 구입량을 조절 할지, 새로운 마켓이나 전략수립으로 판매량 변동이 예상되는 점을 모델에 적용할지 안할지 등등 회사 입장에서 상정할 수 있는 시나리오는 정말 많구요.

      이 개별의 시나리오에 이동평균을 사용할지, 곱셉덧셈 분해를 사용할지, SARIMA를 써볼지, STL을 써볼지, 리그레션 모델링을 도입할지, 머신러닝 을 도입할지 머신 러닝을 도입하면 그 학습용 모델링을 개발자 누구 버전으로 돌릴지, 고정값은 어떻게 정할지 등등 갈림길이 굉장히 많아서… 다 돌려보고 제일 근사치 비슷하게 나오는 모델 찾고.. 그런거 추천하고.. 하는 일입니다.

    • gggggg 157.***.254.203

      회사들마다 data scientist 라는 포지션에 대한 정의가 많이 다릅니다. 마치 SWE 안에서 backend 냐 frontend 냐가 전혀 다른것처럼 말입니다.
      implementation 이 major 라면 swe 같은 느낌이 날꺼고 – 통계 지식은 유투브 몇개 보시면 됩니다. 다만, modeling, 해석 등을 주요하게 하는 일이라면 (보통 병원이나 healthcare 들이 그런 것 같지만) 수학/통계학지식이 중요하고, implementation 은 R/Python 기초만 할 수 있으면 될듯. 회사 hiring manager 가 제일 잘 알듯. HR도 잘 모르는 경우 많아요.

    • 140.***.198.159

      음… 아마 “statistical modeling”이라는걸 검색해서 보시면 뭔가 감을 잡으실 수 있지 않을까 생각되는군요.

    • 121.***.21.16

      신약 개발하는데, 약의 효과를 알아보기 위해서, 두 그룹으로 나누고 그들의 반응을 보고 정말 효과가 있는지 보려고 하면, 두 그룹 차이기 유의미 한것인지, 아니면 랜덤힌차이인지, 그리고 두 그룹을 나눌때 bias가 없이 나눴는지 등등을 따지려면 통계학 기본 개념이 있어야함.

    • 121.***.21.16
    • 121.***.21.16

      입자가속기를 통해 입자를 충돌시켰을때 신호는 엄청난 양의 데이터인데, 그 지저분하고 거대한양의ㅡ데이터로부터 입자들 사이에 무슨일이 일어났는지 알아내려면 입자들을 기술하는 어떤 수학적 모델이 있어야함. 즉 데이터를 다루는 기술+다루는 시스템을 이해하기뉘해서 수학적 모델링이 필요함. 이 경우 데이터 싸이언티스트가 할만한 영역은 아니지만, 좀 더 단순한 시스템에서는 할수도 있을듯.