-
2014-05-1421:11:17 #1256422질문 74.***.123.175 6462
자연과학/수학/통계학과 박사 졸업생들이 Data scientist란 타이틀로 미국 취업이 많이 용이 해졌다고 하는데…
마침 제일도 대량의 데이터분석하고 프로그래밍하는 일이여서…
이게 빅데이터가 유행되다보니 생겨난 분야인가요? 빅데이터 사실 말이 빅데이터지
자연과학 분야에서 수십년전부터 늘하던게 데이터처리인데….대량데이터 에서 패턴찾고…피팅하고….코딩하고….모델링하고…
이 분야가 뭔지 어떤지 아시는분 있나요? 구글링 해보니 대충 알겠습니다만..
IT나 산업계 현업에 종사하시는분들의 시각이 궁금합니다.
자연과학/수학/통계학과 박사 졸업생들이 많이 진출하는 분야인가요?
제가 물리학과인데 과메일로 Alumni 나 회사를 통해 Oil 기업/아마존 등등에서 데이터분석 할 직원
채용한다고 메일 많이 받아본것같습니다….
-
-
관련 전공자 아니지만 cs전공자로 간단히 말씀드리면,
예전부터 대용량 데이터를 처리해왔지만
big data는 3V(velocity, volume, variety)의 특성으로 기존 시스템으로 처리불가능한 데이터를 의미.
이를 처리하기 위해 하드웨어(exascale computing: multicore,gpu, etc)->system software(hadoop, etc)->database(hbase, etc)->backend system(machine learning/statistics/pattern recognition)->application 등 모든 stack에 있어서 변화가 필요하고,
data scientist는 주로 machine learning/statistics/pattern recognition 전공자이거나 (알고리즘개발등의 고급업무), 단순 알고리즘 적용수준(R등 패키지 이용하여 데이터 분석) 등을 하는데,
job description에 따라 data scientist가 하는 일이 천차만별이기때문에,
linkedin이나 이런데서 JD쭉 보시면 알 수 있으실 겁니다.자연과학도 big data때문에 data-driven science란 말이 유행하는걸로 아는데 아닌가요?
-
저도 빅데이터에대해 컴퓨터과학적으로는 잘모르겠습니다만….입자/핵/천제 물리학에서는 기존에 많게는 수십테라바이트정도의 데이터를 처리해서 분석을 하고 C/C++프로그래밍도 상당히 하던거같습니다…기술적으로는 잘 모르겠네요….data-driven science는 금시초문입니다…..그러나 용어와 별도로 전산/이론물리쪽은 많은데이터를 처리해야해서 비슷한기술들이 쓰일수도 있을듯합니다….아무래도 좀더 물리에 더 치중된것같긴합니다만…최근에 물리과에서 빅데이터 교수뽑는데….유력 후보자들중 한명이 컴퓨터사이언스쪽 출신이아니라 CERN에서 입자물리학하던 사람이였습니다…아마도 컴퓨터과학/공학적인 문제를 해결하는 일보다는 데이터를 통계분석해서 그 패턴이나 의미를 찾거나 모델링을 주로 하는 업무인듯합니다만….더 자세히는 모르겠습니다..
-
data-driven science는 구글링해도 금방 나오구요,
물리데이터분석쪽에서 cs의 역할은 데이터분석을 도와주는 역할이겠죠. 슈퍼컴/슈퍼컴운영체제/데이터전송 등등,, 수십테라바이트가 예전엔 한달에 발생하는 데이터라면 점점 하루만에도 발생가능한 방향으로 가게 되면 이런 cs기술이 필요하죠.
bioinformatics처럼 bio와 cs가 오버랩되는 부분도 있겠지만,,-
결국엔 구글링이 답이군요…ㅋㅋㅋ 답변감사합니다…
-
-
-
-
어찌 됐던간에 big data쪽에 거품이 낀 건 사실인 것 같습니다. 같은 선상에서 job title도 data scientist라고 하면 좀 더 트렌디하게 보이는지 예전 같으면 job descripion읽어보면 statistical analyst나 statistician정도로 불렸을만한 포지션이 요즘에는 data scientist라고 포장되더라고요. 그래서 data scientist로 검색하면 시스템쪽이랑 application이랑 섞여서 좀 헷갈리는 것 같아요. 그냥 타이틀은 타이틀이고 어떤 스킬셋을 원하는지 job descripion 보고 판단하셔야할 것 같아요.
-
다음을 찾아보시면 좋은 공부가 될겁니다.
– big data와 전통적인 scientific computing의 차이점과 공통점
– 전통적인 statistical analysis tool로 해결하기 어려운 것을 어떻게 big data에서 하는가?Data scientist라고 하면 application 쪽이지만, 아직 툴들이 super user friendly하지 않은 상태라서 big data 툴과 프로세싱 파라다임에 대한 지식도 요구가 되지요.
-
제 생각에 요즘 빅 데이터가 뜨는 이유가, 말그대로 이제는 빅 데이터를 처리해야 되기 때문이 아닌가 싶습니다..
제가 일하는 회사는 조그만 중소 업체인데도,
온라인 프로그램을 운영하니까 유저가 미 전역에 깔려 있습니다..
그 유저들이 크리스마스 때나 이런때에 시스템에 치고 들어오기 시작하면
정말 데이터들이 폭주하는데, 그걸 어떻게 감당을 할것이냐가 사실 큰 관건입니다..거기다가 이런 데이터들이 점점 쌓이면 분석 들어가야 되는데,
데이터 양이 크면 정말….. 분석에 속도가 나지 안습니다..저희같은 중소 업체도 이모양인데,
아마존 같은 회사는 십수년의 데이터, 전세계 유져…
오라클이 감당을 못한다는 설도 있습니다..
그래서 자체 개발한 디비를 쓴다고..그러니까 기본적으로 대용량의 데이터를 처리하는 인프라가 지금까지는 없었다고 보면 됩니다..
저는 그래서 이게 기본적으로 Data Scientist와 비슷한 일을 할지는 몰라도
기하 급수적으로 증가하는 데이터를 어떻게 처리할것인가에
더 큰 촛점이 있다고 생각합니다..이렇게 말하는 저는 빅데이터 관련일을 하진 않고 있습니다만,
하고 싶은 분야중에 하나입니다 -
뭐 빅데이터 별거 없습니다. (기술적으로는 많을지 몰라도)
데이터 처리 자체의 기본적인 컨셉은 어떻게 하면 데이터를 딜레이없이, 비싼 비용들이지 않고, 오류없이 처리할 것인가입니다. (CS 입장에서 보면)
그 기본적인 컨셉에 데이터 사이즈가 “빅”이 된것 뿐입니다. -
데이터 싸이언티스가 뭐야. 어우.
-
저도 그 작명이 오글거리긴합니다. 그렇게 보면 빅데이터란말도 유치하고. Computer Science란말도 좀 유치합니다. 컴퓨터는 Artificial한 생산품인데 이것의 Science를 어떻게 연구하나요. 그냥 Engineering 인데 공학과 차별성을 두고싶어서 컴싸라고 이름붙인것같습니다.
-
-
Data scientist는 데이터를 가공하고 통계분석하는 Analytics라 불리는 직종하고 똑같습니다.
컴공/컴싸가 하는 하드웨어쪽이랑은 별로 상관없이 통계/경제/금공/산공/수학쪽 전공자들이 많이 진출하는 분야이지요. 주로 중국/인도인들 위주고 외국인 취업도 용이하며 급여수준도 좋습니다.
일반기업의 마케팅/파이넨스부서부터 IT회사들의 Business Insight/마케팅부서, 금융회사, 보험, 광고회사등 다양한곳에서 필요로 합니다.
-
흠… 정말 외국인들이 진출 용이한 분야인가요?
제가 지금까지 3번째 미국회사인데,
비지니스 분야는 설사 Data scientist라도 외국인들이(정확히 말해서 영어 않되는 한국인들이) 뚫기 힘든 분야입니다..
영어가 되는 인도계나 유럽인들이면 몰라도 영어 딸리면 되지 않는곳이던데요..하지만 빅 데이터라면 이야기가 다르지요..
빅 데이터는 실제로 어날리틱을 돌리는 유저들을 위한
환경을 제공해주는 거니까요..그러니까 머신 러닝이니 하드웨어니 이런 것들이 나오는거고..
그러니까 빅 데이터 = Data scientist를 위한 인프라 구축 정도가 되는거 아닐까요??
-
-