unslothai · Erland366 · Feb 26, 2025
diff --git a/nb/HuggingFace Course-Llama3.1_(8B)-GRPO.ipynb b/nb/HuggingFace Course-Llama3.1_(8B)-GRPO.ipynb
@@ -693,14 +693,14 @@
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"^<reasoning>\\n.*?\\n</reasoning>\\n<answer>\\n.*?\\n</answer>\\n$\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def soft_format_reward_func(completions, **kwargs) -> list[float]:\n",
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"<reasoning>.*?</reasoning>\\s*<answer>.*?</answer>\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def count_xml(text) -> float:\n",

diff --git a/nb/HuggingFace Course-Mistral_v0.3_(7B)-GRPO.ipynb b/nb/HuggingFace Course-Mistral_v0.3_(7B)-GRPO.ipynb
@@ -545,14 +545,14 @@
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"^<reasoning>\\n.*?\\n</reasoning>\\n<answer>\\n.*?\\n</answer>\\n$\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def soft_format_reward_func(completions, **kwargs) -> list[float]:\n",
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"<reasoning>.*?</reasoning>\\s*<answer>.*?</answer>\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def count_xml(text) -> float:\n",

diff --git a/nb/HuggingFace Course-Phi_4_(14B)-GRPO.ipynb b/nb/HuggingFace Course-Phi_4_(14B)-GRPO.ipynb
@@ -317,14 +317,14 @@
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"^<reasoning>\\n.*?\\n</reasoning>\\n<answer>\\n.*?\\n</answer>\\n$\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def soft_format_reward_func(completions, **kwargs) -> list[float]:\n",
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"<reasoning>.*?</reasoning>\\s*<answer>.*?</answer>\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def count_xml(text) -> float:\n",

diff --git a/nb/HuggingFace Course-Qwen2.5_(3B)-GRPO.ipynb b/nb/HuggingFace Course-Qwen2.5_(3B)-GRPO.ipynb
@@ -834,14 +834,14 @@
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"^<reasoning>\\n.*?\\n</reasoning>\\n<answer>\\n.*?\\n</answer>\\n$\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def soft_format_reward_func(completions, **kwargs) -> list[float]:\n",
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"<reasoning>.*?</reasoning>\\s*<answer>.*?</answer>\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def count_xml(text) -> float:\n",

diff --git a/nb/Kaggle-Llama3.1_(8B)-GRPO.ipynb b/nb/Kaggle-Llama3.1_(8B)-GRPO.ipynb
diff --git a/nb/Kaggle-Mistral_v0.3_(7B)-GRPO.ipynb b/nb/Kaggle-Mistral_v0.3_(7B)-GRPO.ipynb
@@ -536,14 +536,14 @@
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"^<reasoning>\\n.*?\\n</reasoning>\\n<answer>\\n.*?\\n</answer>\\n$\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def soft_format_reward_func(completions, **kwargs) -> list[float]:\n",
     "    \"\"\"Reward function that checks if the completion has a specific format.\"\"\"\n",
     "    pattern = r\"<reasoning>.*?</reasoning>\\s*<answer>.*?</answer>\"\n",
     "    responses = [completion[0][\"content\"] for completion in completions]\n",
-    "    matches = [re.match(pattern, r) for r in responses]\n",
+    "    matches = [re.match(pattern, r, flags=re.DOTALL) for r in responses]\n",
     "    return [0.5 if match else 0.0 for match in matches]\n",
     "\n",
     "def count_xml(text) -> float:\n",