Merge pull request #5 from GeeeekExplorer/main

Update train_ep.py
2025-06-26 18:15:50 +00:00 · 2024-08-12 10:30:33 +08:00
parent 4bfa99486b 7a96df9be6
commit 4e2defea82
1 changed files with 2 additions and 3 deletions
--- a/train_ep.py
+++ b/train_ep.py
@@ -126,7 +126,6 @@ def main():
        backward(loss, **kwargs)
        if not self.sync_gradients or edp_size == 1:
            return
        return
        for p in expert_params:
            g = p.grad if p.grad is not None else torch.zeros_like(p)
            dist.all_reduce(g, op=dist.ReduceOp.AVG, group=edp_group)
@@ -145,7 +144,7 @@ def main():
    if local_rank == 0:
        trainer.save_model(ckpt_path)
        tokenizer.save_pretrained(ckpt_path)
-    elif 0 < local_rank < ep_size:
+    elif local_rank < ep_size:
        model.save_pretrained(ckpt_path)
    print("Training complete")