직접 클러스터 만들어 돌려보는 것 자체가 목적이 아닌 이상, AWS나 Google Cloud로 하시는게 좋습니다. 웬만한 것은 쉽게 deploy하여 바로 사용할 수 있게 되어 있으니, 시간 낭비도 적고 관리도 간단합니다. 그리고 손수 업그레이드하지 않아도 최신 하드웨어를 이용할 수 있다는 장점도 있고요.
시스템 구축 취미를 가지고 계셔서 직접 해보시고 싶으시다면, 예산에 따라 차이가 많이 나겠죠. 예산이 충분하다면, 메모리 빵빵하게 (최소 512GB정도) 넣고 GPU 넣어서 몇 대 장만하고 최소 10G 네트웍으로 묶으면 (25G recommended), commercial env에서 아주 많이 뒤지지는 않을겁니다. 다만 GPU 여러개 넣으면 쿨링과 파워에 많은 신경을 써야 합니다. 소프트웨어는 일단 클러스터 관리는 Kubernetes가 좋겠고, 거기서 여러가지 ML 프레임웍을 돌려보시면 되겠습니다.
안그러면 single node로도 많은걸 할 수 있어요. GPU 여러 개 넣고요. 알파고의 후기 버젼 (이세돌 매치 훨씬 후)은 싱글노드에서 약 한달 러닝 시켜서 나왔습니다. 다른 매치 정보가 들어가지 않고, 그냥 바닥부터 룰만 가지고 러닝한 것으로, 결과물은 이세돌 매치 때의 수준을 비교도 안되게 능가하는 성능을 가졌습니다.