3 anni fa · 7fb06c6c22
--- a/.gitignore
+++ b/.gitignore
@@ -7,5 +7,4 @@ minimal-llama**
 
															 upload.py
														
 
															 lora-**
														
 
															 *ckpt
														
 
															-wandb
														
 
															-test_data.json
														
 
															+wandb
														
--- a/finetune.py
+++ b/finetune.py
@@ -1,5 +1,4 @@
 
															 import os
														
 
															-import random
														
 
															 import sys
														
 
															 import torch
														
@@ -11,7 +10,7 @@ import transformers
 
															 assert (
														
 
															     "LlamaTokenizer" in transformers._import_structure["models.llama"]
														
 
															 ), "LLaMA is now in HuggingFace's main branch.\nPlease reinstall it: pip uninstall transformers && pip install git+https://github.com/huggingface/transformers.git"
														
 
															-from transformers import LlamaForCausalLM, LlamaTokenizer, TrainerCallback
														
 
															+from transformers import LlamaForCausalLM, LlamaTokenizer
														
 
															 from peft import (
														
 
															     prepare_model_for_int8_training,
														
 
															     LoraConfig,
														
@@ -24,7 +23,7 @@ from peft import (
 
															 MICRO_BATCH_SIZE = 4  # this could actually be 5 but i like powers of 2
														
 
															 BATCH_SIZE = 128
														
 
															 GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
														
 
															-EPOCHS = 3  # remember, we're loading the best checkpoint with the val set
														
 
															+EPOCHS = 3  # we don't always need 3 tbh
														
 
															 LEARNING_RATE = 3e-4  # the Karpathy constant
														
 
															 CUTOFF_LEN = 256  # 256 accounts for about 96% of the data
														
 
															 LORA_R = 8
														
@@ -65,7 +64,7 @@ config = LoraConfig(
 
															     task_type="CAUSAL_LM",
														
 
															 )
														
 
															 model = get_peft_model(model, config)
														
 
															-tokenizer.pad_token_id = 1  # unk. we want this to be different from the eos token
														
 
															+tokenizer.pad_token_id = 0  # unk. we want this to be different from the eos token
														
 
															 data = load_dataset("json", data_files=DATA_PATH)
														
@@ -152,11 +151,8 @@ def generate_and_tokenize_prompt(data_point):
 
															     )["input_ids"][:-1]
														
 
															     return {
														
 
															         "input_ids": full_tokens,
														
 
															-        "labels": [-100] * len_user_prompt_tokens  # mask out the user prompt
														
 
															-        + [
														
 
															-            token if token != tokenizer.pad_token_id else -100
														
 
															-            for token in full_tokens[len_user_prompt_tokens:]
														
 
															-        ],  # mask out the padding
														
 
															+        "labels": [-100] * len_user_prompt_tokens
														
 
															+        + full_tokens[len_user_prompt_tokens:],
														
 
															         "attention_mask": [1] * (len(full_tokens)),
														
 
															     }
														
@@ -171,26 +167,10 @@ else:
 
															     train_data = data["train"].shuffle().map(generate_and_tokenize_prompt)
														
 
															     val_data = None
														
 
															-
														
 
															-class SampleCallback(TrainerCallback):
														
 
															-    def on_evaluate(self, args, state, control, **kwargs):
														
 
															-        model = kwargs["model"]
														
 
															-        input_ids = tokenizer(
														
 
															-            generate_prompt(random.choice(train_val["test"])).split("### Response:")[0]
														
 
															-            + "### Response:",
														
 
															-            truncation=True,
														
 
															-            max_length=CUTOFF_LEN + 1,
														
 
															-            return_tensors="pt",
														
 
															-        )["input_ids"][:, :-1]
														
 
															-        s = model.generate(input_ids=input_ids, max_new_tokens=100)
														
 
															-        print(tokenizer.decode(s[0]))
														
 
															-
														
 
															-
														
 
															 trainer = transformers.Trainer(
														
 
															     model=model,
														
 
															     train_dataset=train_data,
														
 
															     eval_dataset=val_data,
														
 
															-    # callbacks=[SampleCallback()],
														
 
															     args=transformers.TrainingArguments(
														
 
															         per_device_train_batch_size=MICRO_BATCH_SIZE,
														
 
															         gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
														
@@ -208,6 +188,7 @@ trainer = transformers.Trainer(
 
															         load_best_model_at_end=True if VAL_SET_SIZE > 0 else False,
														
 
															         ddp_find_unused_parameters=False if ddp else None,
														
 
															     ),
														
 
															+    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
														
 
															 )
														
 
															 model.config.use_cache = False