browserbase
diff --git a/Diff for: ‎.changeset/stupid-ghosts-smash.md
+5 b/Diff for: ‎.changeset/stupid-ghosts-smash.md
+5
diff --git a/Diff for: ‎.github/workflows/ci.yml
+18-141 b/Diff for: ‎.github/workflows/ci.yml
+18-141
diff --git a/Diff for: ‎evals/args.ts
+10-2 b/Diff for: ‎evals/args.ts
+10-2
diff --git a/Diff for: ‎evals/evals.config.json
+26-31 b/Diff for: ‎evals/evals.config.json
+26-31
@@ -0,0 +1,5 @@
+---
+"@browserbasehq/stagehand": patch
+---
+
+Fix: forward along the stack trace in StagehandDefaultError
@@ -10,7 +10,7 @@ on:
 
 env:
   EVAL_MODELS: "gpt-4o,gpt-4o-mini,claude-3-5-sonnet-latest"
-  EVAL_CATEGORIES: "observe,act,combination,extract,text_extract"
+  EVAL_CATEGORIES: "observe,act,combination,extract,text_extract,targeted_extract"
 
 concurrency:
   group: ${{ github.ref }}
@@ -186,64 +186,13 @@ jobs:
       - name: Run E2E Tests (browserbase)
         run: npm run e2e:bb
 
-  run-regression-evals-llm-providers:
+  run-regression-evals:
     needs:
       [run-e2e-bb-tests, run-e2e-tests, run-e2e-local-tests, determine-evals]
     runs-on: ubuntu-latest
     timeout-minutes: 9
     outputs:
-      regression_llm_providers_score: ${{ steps.set-llm-providers-score.outputs.regression_llm_providers_score }}
-    env:
-      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
-      BRAINTRUST_API_KEY: ${{ secrets.BRAINTRUST_API_KEY }}
-      BROWSERBASE_API_KEY: ${{ secrets.BROWSERBASE_API_KEY }}
-      BROWSERBASE_PROJECT_ID: ${{ secrets.BROWSERBASE_PROJECT_ID }}
-      HEADLESS: true
-      EVAL_ENV: browserbase
-      EVAL_MODELS: "gpt-4o-mini"
-    steps:
-      - name: Check out repository code
-        uses: actions/checkout@v4
-
-      - name: Set up Node.js
-        uses: actions/setup-node@v4
-        with:
-          node-version: "20"
-
-      - name: Install dependencies
-        run: |
-          rm -rf node_modules
-          rm -f package-lock.json
-          npm install
-
-      - name: Build Stagehand
-        run: npm run build
-
-      - name: Install Playwright browsers
-        run: npm exec playwright install --with-deps
-
-      - name: Run Regression Evals (llmProviders)
-        run: npm run evals category regression_llm_providers trials=2 concurrency=8 env=BROWSERBASE
-
-      - name: Save Regression llmProviders Results
-        run: mv eval-summary.json eval-summary-regression-llm-providers.json
-
-      - name: Log and Regression (llmProviders) Evals Performance
-        id: set-llm-providers-score
-        run: |
-          experimentNameRegressionLlmProviders=$(jq -r '.experimentName' eval-summary-regression-llm-providers.json)
-          regression_llm_providers_score=$(jq '.categories.regression_llm_providers' eval-summary-regression-llm-providers.json)
-          echo "regression_llm_providers category score: ${regression_llm_providers_score}%"
-          echo "View regression_llm_providers results: https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentNameRegressionLlmProviders}"
-          echo "regression_llm_providers_score=$regression_llm_providers_score" >> "$GITHUB_OUTPUT"
-
-  run-regression-evals-dom-extract:
-    needs:
-      [run-e2e-bb-tests, run-e2e-tests, run-e2e-local-tests, determine-evals]
-    runs-on: ubuntu-latest
-    timeout-minutes: 9
-    outputs:
-      regression_dom_score: ${{ steps.set-dom-score.outputs.regression_dom_score }}
+      regression_score: ${{ steps.set-regression-score.outputs.regression_score }}
     env:
       OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
       ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
@@ -273,99 +222,27 @@ jobs:
       - name: Install Playwright browsers
         run: npm exec playwright install --with-deps
 
-      - name: Run Regression Evals (domExtract)
-        run: npm run evals category regression_dom_extract trials=2 concurrency=8 env=BROWSERBASE -- --extract-method=domExtract
+      - name: Run Regression Evals
+        run: npm run evals category regression trials=2 concurrency=20 env=BROWSERBASE
 
-      - name: Save Regression domExtract Results
-        run: mv eval-summary.json eval-summary-regression-dom.json
-
-      - name: Log and Regression (domExtract) Evals Performance
-        id: set-dom-score
+      - name: Log Regression Evals Performance
         run: |
-          experimentNameRegressionDom=$(jq -r '.experimentName' eval-summary-regression-dom.json)
-          regression_dom_score=$(jq '.categories.regression_dom_extract' eval-summary-regression-dom.json)
-          echo "regression_dom_extract category score: ${regression_dom_score}%"
-          echo "View regression_dom_extract results: https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentNameRegressionDom}"
-          echo "regression_dom_score=$regression_dom_score" >> "$GITHUB_OUTPUT"
-
-  run-regression-evals-text-extract:
-    needs:
-      [run-e2e-bb-tests, run-e2e-tests, run-e2e-local-tests, determine-evals]
-    runs-on: ubuntu-latest
-    timeout-minutes: 9
-    outputs:
-      regression_text_score: ${{ steps.set-text-score.outputs.regression_text_score }}
-    env:
-      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
-      ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
-      BRAINTRUST_API_KEY: ${{ secrets.BRAINTRUST_API_KEY }}
-      BROWSERBASE_API_KEY: ${{ secrets.BROWSERBASE_API_KEY }}
-      BROWSERBASE_PROJECT_ID: ${{ secrets.BROWSERBASE_PROJECT_ID }}
-      HEADLESS: true
-      EVAL_ENV: browserbase
-    steps:
-      - name: Check out repository code
-        uses: actions/checkout@v4
-
-      - name: Set up Node.js
-        uses: actions/setup-node@v4
-        with:
-          node-version: "20"
-
-      - name: Install dependencies
-        run: |
-          rm -rf node_modules
-          rm -f package-lock.json
-          npm install
-
-      - name: Build Stagehand
-        run: npm run build
-
-      - name: Install Playwright browsers
-        run: npm exec playwright install --with-deps
-
-      - name: Run Regression Evals (textExtract)
-        run: npm run evals category regression_text_extract trials=2 concurrency=8 env=BROWSERBASE -- --extract-method=textExtract
-
-      - name: Save Regression textExtract Results
-        run: mv eval-summary.json eval-summary-regression-text.json
-
-      - name: Log Regression (textExtract) Evals Performance
-        id: set-text-score
-        run: |
-          experimentNameRegressionText=$(jq -r '.experimentName' eval-summary-regression-text.json)
-          regression_text_score=$(jq '.categories.regression_text_extract' eval-summary-regression-text.json)
-          echo "regression_text_extract category score: ${regression_text_score}%"
-          echo "View regression_text_extract results: https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentNameRegressionText}"
-          echo "regression_text_score=$regression_text_score" >> "$GITHUB_OUTPUT"
-
-  check-regression-evals-score:
-    needs:
-      [
-        run-regression-evals-text-extract,
-        run-regression-evals-dom-extract,
-        run-regression-evals-llm-providers,
-      ]
-    runs-on: ubuntu-latest
-    timeout-minutes: 5
-    steps:
-      - name: Compare Overall Regression Evals Score
-        run: |
-          regression_dom_score="${{ needs.run-regression-evals-dom-extract.outputs.regression_dom_score }}"
-          regression_text_score="${{ needs.run-regression-evals-text-extract.outputs.regression_text_score }}"
-          regression_llm_providers_score="${{ needs.run-regression-evals-llm-providers.outputs.regression_llm_providers_score }}"
-
-          overall_score=$(echo "(${regression_dom_score} + ${regression_text_score} + ${regression_llm_providers_score}) / 3" | bc -l)
-          echo "Overall regression score: ${overall_score}%"
-
-          # Fail if overall score is below 90%
-          if (( $(echo "${overall_score} < 90" | bc -l) )); then
-            echo "Overall regression score is below 90%. Failing CI."
+          experimentName=$(jq -r '.experimentName' eval-summary.json)
+          echo "View results at https://www.braintrust.dev/app/Browserbase/p/stagehand/experiments/${experimentName}"
+          if [ -f eval-summary.json ]; then
+            regression_score=$(jq '.categories.regression' eval-summary.json)
+            echo "Regression category score: $regression_score%"
+            if (( $(echo "$regression_score < 90" | bc -l) )); then
+              echo "Regression category score is below 90%. Failing CI."
+              exit 1
+            fi
+          else
+            echo "Eval summary not found for regression category. Failing CI."
             exit 1
           fi
 
   run-combination-evals:
-    needs: [check-regression-evals-score, determine-evals]
+    needs: [run-regression-evals, determine-evals]
     runs-on: ubuntu-latest
     timeout-minutes: 40
     env:
 
@@ -8,6 +8,7 @@ const parsedArgs: {
   trials?: number;
   concurrency?: number;
   extractMethod?: string;
+  provider?: string;
   leftover: string[];
 } = {
   leftover: [],
@@ -28,6 +29,8 @@ for (const arg of rawArgs) {
     }
   } else if (arg.startsWith("--extract-method=")) {
     parsedArgs.extractMethod = arg.split("=")[1];
+  } else if (arg.startsWith("provider=")) {
+    parsedArgs.provider = arg.split("=")[1]?.toLowerCase();
   } else {
     parsedArgs.leftover.push(arg);
   }
@@ -64,8 +67,8 @@ const DEFAULT_EVAL_CATEGORIES = process.env.EVAL_CATEGORIES
       "text_extract",
       "targeted_extract",
       "regression_llm_providers",
-      "regression_text_extract",
-      "regression_dom_extract",
+      "regression",
+      "llm_clients",
     ];
 
 // Finally, interpret leftover arguments to see if user typed "category X" or a single eval name
@@ -93,10 +96,15 @@ if (parsedArgs.leftover.length > 0) {
   }
 }
 
+if (parsedArgs.provider !== undefined) {
+  process.env.EVAL_PROVIDER = parsedArgs.provider;
+}
+
 export {
   filterByCategory,
   filterByEvalName,
   useTextExtract,
   useAccessibilityTree,
   DEFAULT_EVAL_CATEGORIES,
+  parsedArgs,
 };
@@ -6,11 +6,7 @@
     },
     {
       "name": "expect_act_timeout",
-      "categories": ["act"]
-    },
-    {
-      "name": "expect_act_timeout_global",
-      "categories": ["act"]
+      "categories": ["regression"]
     },
     {
       "name": "extract_repo_name",
@@ -22,15 +18,16 @@
     },
     {
       "name": "instructions",
-      "categories": ["combination"]
+      "categories": ["regression", "combination"]
     },
     {
       "name": "bidnet",
       "categories": ["act"]
     },
     {
       "name": "ionwave",
-      "categories": ["act", "regression_dom_extract"]
+      "categories": ["act", "regression"],
+      "extract_method": "domExtract"
     },
     {
       "name": "nonsense_action",
@@ -83,19 +80,20 @@
     },
     {
       "name": "wichita",
-      "categories": ["combination", "regression_dom_extract"]
+      "categories": ["combination", "regression"],
+      "extract_method": "domExtract"
     },
     {
       "name": "hn_aisdk",
-      "categories": ["regression_llm_providers"]
+      "categories": ["llm_clients"]
     },
     {
       "name": "hn_langchain",
-      "categories": ["regression_llm_providers"]
+      "categories": ["llm_clients"]
     },
     {
       "name": "hn_customOpenAI",
-      "categories": ["regression_llm_providers"]
+      "categories": ["llm_clients"]
     },
     {
       "name": "apple",
@@ -119,7 +117,8 @@
     },
     {
       "name": "extract_aigrant_companies",
-      "categories": ["experimental", "text_extract", "regression_text_extract"]
+      "categories": ["text_extract", "regression"],
+      "extract_method": "textExtract"
     },
     {
       "name": "extract_capacitor_info",
@@ -168,7 +167,8 @@
     },
     {
       "name": "extract_memorial_healthcare",
-      "categories": ["extract", "regression_dom_extract"]
+      "categories": ["extract", "regression"],
+      "extract_method": "domExtract"
     },
     {
       "name": "extract_nhl_stats",
@@ -203,17 +203,9 @@
       "name": "panamcs",
       "categories": ["observe"]
     },
-    {
-      "name": "shopify_homepage",
-      "categories": ["observe"]
-    },
-    {
-      "name": "vanta",
-      "categories": ["observe"]
-    },
     {
       "name": "vanta_h",
-      "categories": ["observe"]
+      "categories": ["experimental"]
     },
     {
       "name": "extract_area_codes",
@@ -237,11 +229,13 @@
     },
     {
       "name": "observe_github",
-      "categories": ["observe", "regression_text_extract"]
+      "categories": ["observe", "regression"],
+      "extract_method": "textExtract"
     },
     {
       "name": "observe_vantechjournal",
-      "categories": ["observe", "regression_text_extract"]
+      "categories": ["observe", "regression"],
+      "extract_method": "textExtract"
     },
     {
       "name": "observe_amazon_add_to_cart",
@@ -261,15 +255,16 @@
     },
     {
       "name": "observe_iframes1",
-      "categories": ["observe"]
+      "categories": ["regression", "observe"]
     },
     {
       "name": "observe_iframes2",
-      "categories": ["observe"]
+      "categories": ["regression", "observe"]
     },
     {
       "name": "extract_hamilton_weather",
-      "categories": ["targeted_extract", "regression_text_extract"]
+      "categories": ["targeted_extract", "regression"],
+      "extract_method": "textExtract"
     },
     {
       "name": "extract_regulations_table",
@@ -297,19 +292,19 @@
     },
     {
       "name": "scroll_50",
-      "categories": ["act"]
+      "categories": ["regression", "act"]
     },
     {
       "name": "scroll_75",
-      "categories": ["act", "regression_dom_extract"]
+      "categories": ["regression", "act"]
     },
     {
       "name": "nextChunk",
-      "categories": ["act"]
+      "categories": ["regression", "act"]
     },
     {
       "name": "prevChunk",
-      "categories": ["act"]
+      "categories": ["regression", "act"]
     }
   ]
 }
Original file line number	Diff line number	Diff line change
`@@ -6,11 +6,7 @@`
`6`	`6`	`},`
`7`	`7`	`{`
`8`	`8`	`"name": "expect_act_timeout",`
`9`		`- "categories": ["act"]`
`10`		`- },`
`11`		`- {`
`12`		`- "name": "expect_act_timeout_global",`
`13`		`- "categories": ["act"]`
	`9`	`+ "categories": ["regression"]`
`14`	`10`	`},`
`15`	`11`	`{`
`16`	`12`	`"name": "extract_repo_name",`
`@@ -22,15 +18,16 @@`
`22`	`18`	`},`
`23`	`19`	`{`
`24`	`20`	`"name": "instructions",`
`25`		`- "categories": ["combination"]`
	`21`	`+ "categories": ["regression", "combination"]`
`26`	`22`	`},`
`27`	`23`	`{`
`28`	`24`	`"name": "bidnet",`
`29`	`25`	`"categories": ["act"]`
`30`	`26`	`},`
`31`	`27`	`{`
`32`	`28`	`"name": "ionwave",`
`33`		`- "categories": ["act", "regression_dom_extract"]`
	`29`	`+ "categories": ["act", "regression"],`
	`30`	`+ "extract_method": "domExtract"`
`34`	`31`	`},`
`35`	`32`	`{`
`36`	`33`	`"name": "nonsense_action",`
`@@ -83,19 +80,20 @@`
`83`	`80`	`},`
`84`	`81`	`{`
`85`	`82`	`"name": "wichita",`
`86`		`- "categories": ["combination", "regression_dom_extract"]`
	`83`	`+ "categories": ["combination", "regression"],`
	`84`	`+ "extract_method": "domExtract"`
`87`	`85`	`},`
`88`	`86`	`{`
`89`	`87`	`"name": "hn_aisdk",`
`90`		`- "categories": ["regression_llm_providers"]`
	`88`	`+ "categories": ["llm_clients"]`
`91`	`89`	`},`
`92`	`90`	`{`
`93`	`91`	`"name": "hn_langchain",`
`94`		`- "categories": ["regression_llm_providers"]`
	`92`	`+ "categories": ["llm_clients"]`
`95`	`93`	`},`
`96`	`94`	`{`
`97`	`95`	`"name": "hn_customOpenAI",`
`98`		`- "categories": ["regression_llm_providers"]`
	`96`	`+ "categories": ["llm_clients"]`
`99`	`97`	`},`
`100`	`98`	`{`
`101`	`99`	`"name": "apple",`
`@@ -119,7 +117,8 @@`
`119`	`117`	`},`
`120`	`118`	`{`
`121`	`119`	`"name": "extract_aigrant_companies",`
`122`		`- "categories": ["experimental", "text_extract", "regression_text_extract"]`
	`120`	`+ "categories": ["text_extract", "regression"],`
	`121`	`+ "extract_method": "textExtract"`
`123`	`122`	`},`
`124`	`123`	`{`
`125`	`124`	`"name": "extract_capacitor_info",`
`@@ -168,7 +167,8 @@`
`168`	`167`	`},`
`169`	`168`	`{`
`170`	`169`	`"name": "extract_memorial_healthcare",`
`171`		`- "categories": ["extract", "regression_dom_extract"]`
	`170`	`+ "categories": ["extract", "regression"],`
	`171`	`+ "extract_method": "domExtract"`
`172`	`172`	`},`
`173`	`173`	`{`
`174`	`174`	`"name": "extract_nhl_stats",`
`@@ -203,17 +203,9 @@`
`203`	`203`	`"name": "panamcs",`
`204`	`204`	`"categories": ["observe"]`
`205`	`205`	`},`
`206`		`- {`
`207`		`- "name": "shopify_homepage",`
`208`		`- "categories": ["observe"]`
`209`		`- },`
`210`		`- {`
`211`		`- "name": "vanta",`
`212`		`- "categories": ["observe"]`
`213`		`- },`
`214`	`206`	`{`
`215`	`207`	`"name": "vanta_h",`
`216`		`- "categories": ["observe"]`
	`208`	`+ "categories": ["experimental"]`
`217`	`209`	`},`
`218`	`210`	`{`
`219`	`211`	`"name": "extract_area_codes",`
`@@ -237,11 +229,13 @@`
`237`	`229`	`},`
`238`	`230`	`{`
`239`	`231`	`"name": "observe_github",`
`240`		`- "categories": ["observe", "regression_text_extract"]`
	`232`	`+ "categories": ["observe", "regression"],`
	`233`	`+ "extract_method": "textExtract"`
`241`	`234`	`},`
`242`	`235`	`{`
`243`	`236`	`"name": "observe_vantechjournal",`
`244`		`- "categories": ["observe", "regression_text_extract"]`
	`237`	`+ "categories": ["observe", "regression"],`
	`238`	`+ "extract_method": "textExtract"`
`245`	`239`	`},`
`246`	`240`	`{`
`247`	`241`	`"name": "observe_amazon_add_to_cart",`
`@@ -261,15 +255,16 @@`
`261`	`255`	`},`
`262`	`256`	`{`
`263`	`257`	`"name": "observe_iframes1",`
`264`		`- "categories": ["observe"]`
	`258`	`+ "categories": ["regression", "observe"]`
`265`	`259`	`},`
`266`	`260`	`{`
`267`	`261`	`"name": "observe_iframes2",`
`268`		`- "categories": ["observe"]`
	`262`	`+ "categories": ["regression", "observe"]`
`269`	`263`	`},`
`270`	`264`	`{`
`271`	`265`	`"name": "extract_hamilton_weather",`
`272`		`- "categories": ["targeted_extract", "regression_text_extract"]`
	`266`	`+ "categories": ["targeted_extract", "regression"],`
	`267`	`+ "extract_method": "textExtract"`
`273`	`268`	`},`
`274`	`269`	`{`
`275`	`270`	`"name": "extract_regulations_table",`
`@@ -297,19 +292,19 @@`
`297`	`292`	`},`
`298`	`293`	`{`
`299`	`294`	`"name": "scroll_50",`
`300`		`- "categories": ["act"]`
	`295`	`+ "categories": ["regression", "act"]`
`301`	`296`	`},`
`302`	`297`	`{`
`303`	`298`	`"name": "scroll_75",`
`304`		`- "categories": ["act", "regression_dom_extract"]`
	`299`	`+ "categories": ["regression", "act"]`
`305`	`300`	`},`
`306`	`301`	`{`
`307`	`302`	`"name": "nextChunk",`
`308`		`- "categories": ["act"]`
	`303`	`+ "categories": ["regression", "act"]`
`309`	`304`	`},`
`310`	`305`	`{`
`311`	`306`	`"name": "prevChunk",`
`312`		`- "categories": ["act"]`
	`307`	`+ "categories": ["regression", "act"]`
`313`	`308`	`}`
`314`	`309`	`]`
`315`	`310`	`}`