3 lat temu · b5a1a0bca7
--- a/finetune.py
+++ b/finetune.py
@@ -67,12 +67,6 @@ model = get_peft_model(model, config)
 
															 tokenizer.pad_token_id = 0  # unk. we want this to be different from the eos token
														
 
															 data = load_dataset("json", data_files=DATA_PATH)
														
 
															-train_val = data["train"].train_test_split(
														
 
															-    test_size=VAL_SET_SIZE, shuffle=True, seed=42
														
 
															-)
														
 
															-train_data = train_val["train"]
														
 
															-val_data = train_val["test"]
														
 
															-
														
 
															 def generate_prompt(data_point):
														
 
															     # sorry about the formatting disaster gotta move fast
														
@@ -164,8 +158,15 @@ def generate_and_tokenize_prompt(data_point):
 
															     }
														
 
															-train_data = train_data.shuffle().map(generate_and_tokenize_prompt)
														
 
															-val_data = val_data.shuffle().map(generate_and_tokenize_prompt)
														
 
															+if VAL_SET_SIZE > 0:
														
 
															+    train_val = data["train"].train_test_split(
														
 
															+        test_size=VAL_SET_SIZE, shuffle=True, seed=42
														
 
															+    )
														
 
															+    train_data = train_val["train"].shuffle().map(generate_and_tokenize_prompt)
														
 
															+    val_data = train_val["test"].shuffle().map(generate_and_tokenize_prompt)
														
 
															+else:
														
 
															+    train_data = data['train'].shuffle().map(generate_and_tokenize_prompt)
														
 
															+    val_data = None
														
 
															 trainer = transformers.Trainer(
														
 
															     model=model,
														
@@ -179,13 +180,13 @@ trainer = transformers.Trainer(
 
															         learning_rate=LEARNING_RATE,
														
 
															         fp16=True,
														
 
															         logging_steps=20,
														
 
															-        evaluation_strategy="steps",
														
 
															+        evaluation_strategy="steps" if VAL_SET_SIZE > 0 else "no",
														
 
															         save_strategy="steps",
														
 
															-        eval_steps=200,
														
 
															+        eval_steps=200 if VAL_SET_SIZE > 0 else None,
														
 
															         save_steps=200,
														
 
															         output_dir=OUTPUT_DIR,
														
 
															         save_total_limit=3,
														
 
															-        load_best_model_at_end=True,
														
 
															+        load_best_model_at_end=True if VAL_SET_SIZE > 0 else False,
														
 
															         ddp_find_unused_parameters=False if ddp else None,
														
 
															     ),
														
 
															     data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),