add training code

2025-06-26 18:15:50 +00:00 · 2024-08-09 16:23:48 +08:00
parent 26b4fc4a8a
commit 809d0e377e
11 changed files with 2533 additions and 8 deletions
--- a/scripts/train.sh
+++ b/scripts/train.sh
@@ -0,0 +1,12 @@
+
+export TOKENIZERS_PARALLELISM=false
+
+exp_name="test/eval_translation"
+base_model_path="/hf3fs-jd/prod/deepseek/shared/wangzihan/models/huggingface/vanilla_model"
+# turn above to for loop
+python train.py \
+    --base_model_path=${base_model_path} \
+    --expert_config=results/expert_configs/translation.json \
+    --train_dataset=translation \
+    --train_config=configs/base.yaml \
+    --output_dir=results/checkpoints/${exp_name}
--- a/scripts/train_ep.sh
+++ b/scripts/train_ep.sh
@@ -0,0 +1,11 @@
+
+export TOKENIZERS_PARALLELISM=false
+
+exp_name="test/eval_translation"
+base_model_path="/hf3fs-jd/prod/deepseek/shared/wangzihan/models/huggingface/vanilla_model"
+torchrun --nproc-per-node=8 train_ep.py \
+    --base_model_path=${base_model_path} \
+    --expert_config=results/expert_configs/translation.json \
+    --train_dataset=translation \
+    --train_config=configs/base.yaml \
+    --output_dir=results/checkpoints/${exp_name}