動方式 假設 3 台機器(1 台當管理主機 Rank 0),各機只有 1 張 GPU: 管理主機(Rank 0,例如 192.168.0.10) cd C:\xampp\htdocs\cs_ai\python torchrun --nproc_per_node=1 --nnodes=3 --node_rank=0 ^ --master_addr=192.168.0.10 --master_port=23456 ^ train_piston_cluster_v5_3_ddp.py Worker-1(Rank 1,例如 192.168.0.11) cd C:\xampp\htdocs\cs_ai\python torchrun --nproc_per_node=1 --nnodes=3 --node_rank=1 ^ --master_addr=192.168.0.10 --master_port=23456 ^ train_piston_cluster_v5_3_ddp.py Worker-2(Rank 2,例如 192.168.0.12) cd C:\xampp\htdocs\cs_ai\python torchrun --nproc_per_node=1 --nnodes=3 --node_rank=2 ^ --master_addr=192.168.0.10 --master_port=23456 ^ train_piston_cluster_v5_3_ddp.py 單機多卡:把 --nproc_per_node 設為 GPU 張數(例如 2 或 4),其他參數維持 --nnodes=1 --node_rank=0 即可。 必備一致性(超重要) 每台機器都要有 相同資料夾結構與資料(同樣的 C:\xampp\htdocs\cs_ai\data\train\images / val\images) Python / PyTorch / CUDA 版本一致(建議 PyTorch 2.3+ / CUDA 12.1–12.3) LAN 網路互通,管理主機的 master_port(23456)防火牆放行(TCP) Windows 下建議 所有機器都用同一個系統地區/小數點設定(避免路徑/編碼問題) 常見問題速排 卡在初始化 / 連不上:檢查 IP、port、防火牆,確認 master_addr 可 ping OOM:Rank0 會自動把 batch 對半降,其它節點會跟著同步 速度變慢:確保每台資料在本機磁碟(不要走網路檔案伺服器) Dashboard 不更新:Rank0 才會寫 ckpt/tmp/preview,auto_monitor 也請在 Rank0 跑 要不要我也幫你出 多節點版 auto monitor(彙整每個節點 GPU/溫度/吞吐),或是出一鍵批次檔(Master 一鍵啟動全叢集 via SSH)?