Asian American Hate Crime 에 관한 데이터

  • #3600902
    부산남자 73.***.139.193 856

    안녕하세요. 오랜만에 이 싸이트에 또 들르네요.
    여름방학동안 아주 훌륭한 중국인 교수분이 같이 공동작업을 하자고 하는데
    보여주는 데이터가 코로나 기간동안 아시안 아메리칸 증오범죄에
    관한 기사들을 죽 3월부터 11월까지 모은 것이네요.

    학생을 시켜서 죽 컴파일한거 같은데, 어느 주에서 일어났는지, 언제 일어났는지,
    희생자의 젠더, 범죄자의 젠더, 범죄형태… 뭐 이런식으로 칼럼이 되어 있네요.

    데이터 싸이언티스트 하시는 분들은 이런 종류의 raw data 가 있다면
    어떤 종류의 유의미한 비주얼라이제이션을 생산할 수 있을까요?
    전에 타블로를 써 본적이 있는데, 그걸로 각 주에 주립대학, 사립대학이 몇개씩 있는지 허접하게 하나 만들었더니,
    그걸 보고 저보고 전문가라고 하네요. 하~~~

    진짜 데이터싸이언티스트의 고견을 묻습니다.

    • datsci 143.***.98.114

      뭐 barchart 로 해가지고 젠더 비교하고, 주 비교하고, 또 geo pandas 같은거 써가지고 지도에 heat map 식으로 표현할 수도 있고 correlation heat map 으로 feature들끼리 상관관계 비교하고.. line 이나 scatter 써서 timeseries plot으로 각 주마다 성별마다 얼마나 crime increase가 났는지도 볼수 있을거 같고.. 비쥬얼라이제이션을 넘어서 모델링을 해야한다면 label을 범죄가 일어났냐 안 일어났냐로 봐서 binary로 해가지고 간단하게 모델 만들수도 있고. 저라면 그럴거같습니다

    • 71.***.60.221

      윗분이 한것처럼 하는것 이외에도 통계적으로 아시안이 타 인종에 비해서 공격을 더 유의미하게 받았다던가 뭐 그런것들도 알아볼 것 같네요. 통계적 방법으로 하는것보다 비쥬얼라이제이션을 하고 싶다면 그런걸 그룹별로 나타내면 좋겠네요.

    • datsci 143.***.98.114

      첫댓글 작성자인데 “뭐”님이 말씀하신것처럼 p value 같은것도 재밌겠네요. 저는 data exploration 차원에서의 visualization 만 말씀드린건데 seaborn 사이트 들어가면 이거저거 차트종류별로 많이 나와있으니까 한번 보시고 (파이썬만 쓸줄 아는 데싸라 ㅎㅎ) interactive한거는 plotly 쓰면 되실거 같습니다. 뭐 태블로나 mode analytics같은거도 있지만요.

    • CA 71.***.104.80