add SGD to benchmarks and use the current credentials to obtain the tenant, subscription, and principal ids

paulbkoch · paulbkoch · commit dd17bf961a45 · 2024-08-31T11:47:19.000-07:00
diff --git a/docs/benchmarks/ebm-benchmark.ipynb b/docs/benchmarks/ebm-benchmark.ipynb
@@ -117,8 +117,9 @@
     "        \"rf_sk\",\n",
     "        \"ert\",\n",
     "        \"elastic\",\n",
+    "        \"sgd\",\n",
     "        \"lm\",\n",
-    "        \"lm_svm\",\n",
+    "        \"lsvm\",\n",
     "        \"svm\",\n",
     "        \"nn\",\n",
     "        \"knn\",\n",
@@ -136,13 +137,14 @@
     "def trial_runner(trial):\n",
     "    seed=42 + int(trial.replicate_num)\n",
     "    max_samples = 1000000000000\n",
+    "    n_calibration_folds = 4  # 4 uses all cores on the containers\n",
     "\n",
     "    from interpret.glassbox import ExplainableBoostingClassifier, ExplainableBoostingRegressor\n",
     "    from xgboost import XGBClassifier, XGBRegressor, XGBRFClassifier, XGBRFRegressor\n",
     "    from lightgbm import LGBMClassifier, LGBMRegressor\n",
     "    from catboost import CatBoostClassifier, CatBoostRegressor\n",
     "    from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor, ExtraTreesClassifier, ExtraTreesRegressor\n",
-    "    from sklearn.linear_model import LogisticRegression, LinearRegression, ElasticNet\n",
+    "    from sklearn.linear_model import LogisticRegression, LinearRegression, ElasticNet, SGDClassifier, SGDRegressor\n",
     "    from sklearn.svm import LinearSVC, LinearSVR, SVC, SVR\n",
     "    from sklearn.neural_network import MLPClassifier, MLPRegressor\n",
     "    from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor\n",
@@ -178,7 +180,7 @@
     "        pass  # Re-enable stratification if dataset fails from absent class in train/test sets (PMLB)\n",
     "    \n",
     "    fit_params = {}\n",
-    "    fit_params[\"X\"], X_test, fit_params[\"y\"], y_test = train_test_split(X, y, test_size=0.3, stratify=stratification, random_state=seed)\n",
+    "    fit_params[\"X\"], X_test, fit_params[\"y\"], y_test = train_test_split(X, y, test_size=0.2, stratify=stratification, random_state=seed)\n",
     "    del X\n",
     "\n",
     "    # Build optional preprocessor for use by methods below\n",
@@ -197,8 +199,9 @@
     "    rf_sk_params = {}\n",
     "    ert_params = {}\n",
     "    elastic_params = {}\n",
+    "    sgd_params = {}\n",
     "    lm_params = {}\n",
-    "    lm_svm_params = {}\n",
+    "    lsvm_params = {}\n",
     "    svm_params = {}\n",
     "    nn_params = {}\n",
     "    knn_params = {}\n",
@@ -212,15 +215,16 @@
     "    catboost_params[\"verbose\"] = False\n",
     "    rf_xgb_params[\"enable_categorical\"] = True\n",
     "    rf_xgb_params[\"feature_types\"] = [\"c\" if cat else \"q\" for cat in cat_bools]\n",
-    "    rf_sk_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
+    "    rf_sk_params[\"random_state\"] = seed\n",
     "    rf_sk_params[\"n_jobs\"] = -1\n",
     "    ert_params[\"n_jobs\"] = -1\n",
-    "    ert_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
-    "    elastic_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
+    "    ert_params[\"random_state\"] = seed\n",
+    "    elastic_params[\"random_state\"] = seed\n",
     "    # elastic_params[\"selection\"] = 'cyclic'  # 'random'  # TODO: try both\n",
+    "    sgd_params[\"random_state\"] = seed\n",
     "    lm_params[\"n_jobs\"] = -1\n",
-    "    lm_svm_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
-    "    nn_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
+    "    lsvm_params[\"random_state\"] = seed\n",
+    "    nn_params[\"random_state\"] = seed\n",
     "    knn_params[\"n_jobs\"] = -1\n",
     "    aplr_params[\"m\"] = 3000\n",
     "\n",
@@ -241,7 +245,8 @@
     "    #rf_sk_params[\"n_estimators\"] = 1\n",
     "    #ert_params[\"n_estimators\"] = 1\n",
     "    #elastic_params[\"max_iter\"] = 1\n",
-    "    #lm_svm_params[\"max_iter\"] = 1\n",
+    "    #sgd_params[\"max_iter\"] = 1\n",
+    "    #lsvm_params[\"max_iter\"] = 1\n",
     "    #nn_params[\"max_iter\"] = 1\n",
     "    #knn_params[\"n_neighbors\"] = 1\n",
     "    #knn_params[\"leaf_size\"] = 1\n",
@@ -270,30 +275,28 @@
     "        elif trial.method.name == \"elastic\":\n",
     "            elastic_params[\"n_jobs\"] = -1\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", LogisticRegression(penalty='elasticnet', solver='saga', l1_ratio=0.5, **elastic_params))])\n",
+    "        elif trial.method.name == \"sgd\":\n",
+    "            est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(SGDClassifier(**sgd_params), n_jobs=-1, cv=n_calibration_folds))])\n",
     "        elif trial.method.name == \"lm\":\n",
-    "            lm_params[\"random_state\"] = seed  # TODO: is this needed for reproducibility?\n",
+    "            lm_params[\"random_state\"] = seed\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", LogisticRegression(**lm_params))])\n",
-    "        elif trial.method.name == \"lm_svm\":\n",
+    "        elif trial.method.name == \"lsvm\":\n",
     "            if trial.task.name in {\"CIFAR_10\", \"Devnagari-Script\"}:\n",
     "                max_samples = 10000  # crashes or fit time too long without subsampling\n",
-    "            if trial.task.problem == \"multiclass\":\n",
-    "                est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(OneVsRestClassifier(LinearSVC(**lm_svm_params), n_jobs=-1)))])\n",
-    "            else:\n",
-    "                est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(LinearSVC(**lm_svm_params), n_jobs=-1))])\n",
+    "            est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(LinearSVC(**lsvm_params), n_jobs=-1, cv=n_calibration_folds))])\n",
     "        elif trial.method.name == \"svm\":\n",
     "            if trial.task.name in {\"CIFAR_10\", \"Devnagari-Script\"}:\n",
     "                max_samples = 10000  # crashes or fit time too long without subsampling\n",
     "            svm_params[\"random_state\"] = seed\n",
-    "            if trial.task.problem == \"multiclass\":\n",
-    "                est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(OneVsRestClassifier(SVC(**svm_params), n_jobs=-1)))])\n",
-    "            else:\n",
-    "                est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(SVC(**svm_params), n_jobs=-1))])\n",
+    "            est = Pipeline([(\"ct\", ct), (\"est\", CalibratedClassifierCV(SVC(**svm_params), n_jobs=-1, cv=n_calibration_folds))])\n",
     "        elif trial.method.name == \"nn\":\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", MLPClassifier(**nn_params))])\n",
     "        elif trial.method.name == \"knn\":\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", KNeighborsClassifier(**knn_params))])\n",
     "        elif trial.method.name == \"aplr\":\n",
     "            ct.sparse_threshold = 0  # APLR only handles dense\n",
+    "            if trial.task.name in {\"CIFAR_10\", \"Fashion-MNIST\", \"Devnagari-Script\", \"mnist_784\"}:\n",
+    "                max_samples = 10000  # crashes or fit time too long without subsampling\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", APLRClassifier(**aplr_params))])\n",
     "            fit_params[\"y\"] = fit_params[\"y\"].astype(str).to_numpy()\n",
     "            y_test = y_test.astype(str).to_numpy()\n",
@@ -326,12 +329,14 @@
     "            est = Pipeline([(\"ct\", ct), (\"est\", ExtraTreesRegressor(**ert_params))])\n",
     "        elif trial.method.name == \"elastic\":\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", ElasticNet(**elastic_params))])\n",
+    "        elif trial.method.name == \"sgd\":\n",
+    "            est = Pipeline([(\"ct\", ct), (\"est\", SGDRegressor(**sgd_params))])\n",
     "        elif trial.method.name == \"lm\":\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", LinearRegression(**lm_params))])\n",
-    "        elif trial.method.name == \"lm_svm\":\n",
-    "            est = Pipeline([(\"ct\", ct), (\"est\", LinearSVR(**lm_svm_params))])\n",
+    "        elif trial.method.name == \"lsvm\":\n",
+    "            est = Pipeline([(\"ct\", ct), (\"est\", LinearSVR(**lsvm_params))])\n",
     "        elif trial.method.name == \"svm\":\n",
-    "            if trial.task.name in {\"Buzzinsocialmedia_Twitter\", \"nyc-taxi-green-dec-2016\", \"Airlines_DepDelay_10M\"}:\n",
+    "            if trial.task.name in {\"Buzzinsocialmedia_Twitter\", \"nyc-taxi-green-dec-2016\", \"Airlines_DepDelay_10M\", \"Yolanda\"}:\n",
     "                max_samples = 100000  # crashes or fit time too long without subsampling\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", SVR(**svm_params))])\n",
     "        elif trial.method.name == \"nn\":\n",
@@ -341,9 +346,9 @@
     "                max_samples = 100000  # crashes or fit time too long without subsampling\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", KNeighborsRegressor(**knn_params))])\n",
     "        elif trial.method.name == \"aplr\":\n",
+    "            ct.sparse_threshold = 0  # APLR only handles dense\n",
     "            if trial.task.name in {\"Airlines_DepDelay_10M\"}:\n",
     "                max_samples = 100000  # crashes or fit time too long without subsampling\n",
-    "            ct.sparse_threshold = 0  # APLR only handles dense\n",
     "            est = Pipeline([(\"ct\", ct), (\"est\", APLRRegressor(**aplr_params))])\n",
     "            fit_params[\"y\"] = fit_params[\"y\"].astype(str).to_numpy()\n",
     "            y_test = y_test.astype(str).to_numpy()\n",
@@ -441,19 +446,24 @@
     "if is_local:\n",
     "    conn_str = f\"sqlite:///{os.getcwd()}/powerlift.db\"\n",
     "else:\n",
+    "    import requests\n",
+    "    import json\n",
+    "    import subprocess\n",
     "    from azure.identity import AzureCliCredential\n",
     "    credential = AzureCliCredential()\n",
+    "    access_token = credential.get_token(\"https://graph.microsoft.com/.default\").token\n",
+    "    headers = {'Authorization': f'Bearer {access_token}', 'Content-Type': 'application/json'}\n",
+    "    azure_client_id = requests.get('https://graph.microsoft.com/v1.0/me', headers=headers).json().get('id')\n",
+    "    azure_tenant_id = requests.get('https://graph.microsoft.com/v1.0/organization', headers=headers).json()['value'][0].get('id')\n",
+    "    subscription_id = json.loads(subprocess.run(\"az account show\", capture_output=True, text=True, shell=True).stdout).get(\"id\")\n",
     "    \n",
     "    from dotenv import load_dotenv\n",
     "    load_dotenv()\n",
     "    TIMEOUT_SEC = 60 * 60 * 24 * 180  # 180 days\n",
     "    wheel_filepaths = [\"interpret_core-0.6.3-py3-none-any.whl\", \"powerlift-0.1.11-py3-none-any.whl\"]\n",
     "    n_containers=198\n",
     "    conn_str = os.getenv(\"DOCKER_DB_URL\")\n",
-    "    azure_tenant_id = os.getenv(\"AZURE_TENANT_ID\")\n",
-    "    azure_client_id = os.getenv(\"AZURE_CLIENT_ID\")\n",
-    "    azure_client_secret = os.getenv(\"AZURE_CLIENT_SECRET\")\n",
-    "    subscription_id = os.getenv(\"AZURE_SUBSCRIPTION_ID\")\n",
+    "    azure_client_secret = None  # use default credentials instead\n",
     "    resource_group = os.getenv(\"AZURE_RESOURCE_GROUP\")\n",
     "\n",
     "from powerlift.bench import retrieve_openml_automl_regression, retrieve_openml_automl_classification, retrieve_openml_cc18, retrieve_catboost_50k, retrieve_pmlb\n",