Correct units for time printouts

jansel · jansel · commit 750a34f8eb03 · 2025-06-04T08:13:24.000-07:00
do_bench returns ms rather than sec stack-info: PR: #133, branch: jansel/stack/29
diff --git a/README.md b/README.md
@@ -129,11 +129,11 @@ typical autotuning session produces output similar to:
 
 ```
 [0s] Starting DifferentialEvolutionSearch with population=40, generations=20, crossover_rate=0.8
-[20s] Initial population: failed=10 min=0.9677s mid=3.0013s max=22.1430s best=Config(block_sizes=[[64, 32], [32]], loop_orders=[[1, 0]], num_warps=2, num_stages=2, indexing='pointer', l2_grouping=1, use_yz_grid=False)
-[52s] Generation 2: replaced=16 min=0.7731s mid=1.7203s max=3.1227s best=Config(block_sizes=[[32, 128], [16]], loop_orders=[[0, 1]], num_warps=4, num_stages=4, indexing='block_ptr', l2_grouping=16)
-[85s] Generation 3: replaced=19 min=0.6256s mid=1.3916s max=2.7868s best=Config(block_sizes=[[64, 128], [16]], loop_orders=[[0, 1]], num_warps=4, num_stages=4, indexing='block_ptr', l2_grouping=16)
+[20s] Initial population: failed=10 min=0.9677 mid=3.0013 max=22.1430 best=Config(block_sizes=[[64, 32], [32]], loop_orders=[[1, 0]], num_warps=2, num_stages=2, indexing='pointer', l2_grouping=1, use_yz_grid=False)
+[52s] Generation 2: replaced=16 min=0.7731 mid=1.7203 max=3.1227 best=Config(block_sizes=[[32, 128], [16]], loop_orders=[[0, 1]], num_warps=4, num_stages=4, indexing='block_ptr', l2_grouping=16)
+[85s] Generation 3: replaced=19 min=0.6256 mid=1.3916 max=2.7868 best=Config(block_sizes=[[64, 128], [16]], loop_orders=[[0, 1]], num_warps=4, num_stages=4, indexing='block_ptr', l2_grouping=16)
 ...
-[593s] Generation 19: replaced=7 min=0.6072s mid=0.6626s max=0.7496s best=Config(block_sizes=[[64, 128], [16]], loop_orders=[[1, 0]], num_warps=4, num_stages=3, indexing='block_ptr', l2_grouping=32)
+[593s] Generation 19: replaced=7 min=0.6072 mid=0.6626 max=0.7496 best=Config(block_sizes=[[64, 128], [16]], loop_orders=[[1, 0]], num_warps=4, num_stages=3, indexing='block_ptr', l2_grouping=32)
 [593s] Autotuning complete in 593.1s after searching 1520 configs.
 One can hardcode the best config and skip autotuning with:
     @helion.kernel(config=helion.Config(block_sizes=[[64, 128], [16]], loop_orders=[[1, 0]], num_warps=4, num_stages=3, indexing='block_ptr', l2_grouping=32))
diff --git a/examples/add.py b/examples/add.py
@@ -32,7 +32,7 @@ def check(m: int, n: int) -> None:
     sec = do_bench(lambda: add(x, y))
     baseline_sec = do_bench(lambda: torch.add(x, y))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/attention.py b/examples/attention.py
@@ -109,7 +109,7 @@ def test(
     flex_sec = do_bench(lambda: flex_attention(q, k, v))
     helion_sec = do_bench(lambda: attention(q, k, v))
     print(
-        f"Helion time: {helion_sec:.4f}s, flex time: {flex_sec:.4f}, torch time: {spda_sec:.4f}"
+        f"Helion time: {helion_sec:.4f}ms, flex time: {flex_sec:.4f}, torch time: {spda_sec:.4f}"
     )
 
 
diff --git a/examples/bmm.py b/examples/bmm.py
@@ -35,7 +35,7 @@ def check(b: int, m: int, k: int, n: int) -> None:
     sec = do_bench(lambda: bmm(x, y))
     baseline_sec = do_bench(lambda: torch.bmm(x, y))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/concatenate.py b/examples/concatenate.py
@@ -41,7 +41,7 @@ def main() -> None:
     sec = do_bench(lambda: concat2d_dim1(x, y))
     baseline_sec = do_bench(lambda: torch.cat([x, y], dim=1))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/embedding.py b/examples/embedding.py
@@ -34,7 +34,7 @@ def main() -> None:
     sec = do_bench(lambda: embedding(x, weight))
     baseline_sec = do_bench(lambda: torch.nn.functional.embedding(x, weight))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/long_sum.py b/examples/long_sum.py
@@ -95,7 +95,7 @@ def check(m: int, n: int) -> None:
     manual_loop_sec = do_bench(lambda: longsum_manual(x))
     baseline_sec = do_bench(lambda: baseline_sum(x))
     print(
-        f"Helion Naive time: {sec:.4f}s, Helion Looped Time: {loop_sec:.4f},  Helion Manual Loop Time: {manual_loop_sec:.4f} torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x {baseline_sec / loop_sec:.2f}x {baseline_sec / manual_loop_sec:.2f}x"
+        f"Helion Naive time: {sec:.4f}ms, Helion Looped Time: {loop_sec:.4f},  Helion Manual Loop Time: {manual_loop_sec:.4f} torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x {baseline_sec / loop_sec:.2f}x {baseline_sec / manual_loop_sec:.2f}x"
     )
 
 
diff --git a/examples/matmul.py b/examples/matmul.py
@@ -33,7 +33,7 @@ def check(m: int, k: int, n: int) -> None:
     sec = do_bench(lambda: matmul(x, y))
     baseline_sec = do_bench(lambda: torch.matmul(x, y))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/moe_matmul_ogs.py b/examples/moe_matmul_ogs.py
@@ -172,7 +172,7 @@ def check(T: int, K: int, N: int, n_experts: int) -> None:
         lambda: moe_matmul_ogs_reference(A, W, top1_expert_per_token)
     )
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}s, speed-up: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speed-up: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/examples/softmax.py b/examples/softmax.py
@@ -64,7 +64,7 @@ def check(m: int, n: int) -> None:
     sec = do_bench(lambda: softmax(x))
     baseline_sec = do_bench(lambda: torch.nn.functional.softmax(x, dim=1))
     print(
-        f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
+        f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"
     )
 
 
diff --git a/helion/autotuner/base_search.py b/helion/autotuner/base_search.py
@@ -110,7 +110,7 @@ def benchmark_function(self, config: Config, fn: CompiledConfig) -> float:
             )
             t2 = time.perf_counter()
             self.log.debug(
-                lambda: f"result: {res:.4f}s (took {t1 - t0:.1f}s + {t2 - t1:.1f}s)",
+                lambda: f"result: {res:.4f}ms (took {t1 - t0:.1f}s + {t2 - t1:.1f}s)",
             )
             return res
         except OutOfResources:
@@ -336,15 +336,15 @@ def population_statistics(population: list[PopulationMember]) -> str:
         working = [x for x in population if not math.isinf(x.perf)]
         return (
             f"failed={len(population) - len(working)} "
-            f"min={working[0].perf:.4f}s "
-            f"mid={working[len(working) // 2].perf:.4f}s "
-            f"max={working[-1].perf:.4f}s "
+            f"min={working[0].perf:.4f} "
+            f"mid={working[len(working) // 2].perf:.4f} "
+            f"max={working[-1].perf:.4f} "
             f"best={population[0].config!s}"
         )
     return (
-        f"min={population[0].perf:.4f}s "
-        f"mid={population[len(population) // 2].perf:.4f}s "
-        f"max={population[-1].perf:.4f}s "
+        f"min={population[0].perf:.4f} "
+        f"mid={population[len(population) // 2].perf:.4f} "
+        f"max={population[-1].perf:.4f} "
         f"best={population[0].config!s}"
     )
 

Original file line number	Diff line number	Diff line change
`@@ -32,7 +32,7 @@ def check(m: int, n: int) -> None:`
`32`	`32`	`sec = do_bench(lambda: add(x, y))`
`33`	`33`	`baseline_sec = do_bench(lambda: torch.add(x, y))`
`34`	`34`	`print(`
`35`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`35`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`36`	`36`	`)`
`37`	`37`
`38`	`38`
Original file line number	Diff line number	Diff line change
`@@ -109,7 +109,7 @@ def test(`
`109`	`109`	`flex_sec = do_bench(lambda: flex_attention(q, k, v))`
`110`	`110`	`helion_sec = do_bench(lambda: attention(q, k, v))`
`111`	`111`	`print(`
`112`		`- f"Helion time: {helion_sec:.4f}s, flex time: {flex_sec:.4f}, torch time: {spda_sec:.4f}"`
	`112`	`+ f"Helion time: {helion_sec:.4f}ms, flex time: {flex_sec:.4f}, torch time: {spda_sec:.4f}"`
`113`	`113`	`)`
`114`	`114`
`115`	`115`
Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@ def check(b: int, m: int, k: int, n: int) -> None:`
`35`	`35`	`sec = do_bench(lambda: bmm(x, y))`
`36`	`36`	`baseline_sec = do_bench(lambda: torch.bmm(x, y))`
`37`	`37`	`print(`
`38`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`38`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`39`	`39`	`)`
`40`	`40`
`41`	`41`
Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@ def main() -> None:`
`41`	`41`	`sec = do_bench(lambda: concat2d_dim1(x, y))`
`42`	`42`	`baseline_sec = do_bench(lambda: torch.cat([x, y], dim=1))`
`43`	`43`	`print(`
`44`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`44`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`45`	`45`	`)`
`46`	`46`
`47`	`47`
Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@ def main() -> None:`
`34`	`34`	`sec = do_bench(lambda: embedding(x, weight))`
`35`	`35`	`baseline_sec = do_bench(lambda: torch.nn.functional.embedding(x, weight))`
`36`	`36`	`print(`
`37`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`37`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`38`	`38`	`)`
`39`	`39`
`40`	`40`
Original file line number	Diff line number	Diff line change
`@@ -95,7 +95,7 @@ def check(m: int, n: int) -> None:`
`95`	`95`	`manual_loop_sec = do_bench(lambda: longsum_manual(x))`
`96`	`96`	`baseline_sec = do_bench(lambda: baseline_sum(x))`
`97`	`97`	`print(`
`98`		`- f"Helion Naive time: {sec:.4f}s, Helion Looped Time: {loop_sec:.4f}, Helion Manual Loop Time: {manual_loop_sec:.4f} torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x {baseline_sec / loop_sec:.2f}x {baseline_sec / manual_loop_sec:.2f}x"`
	`98`	`+ f"Helion Naive time: {sec:.4f}ms, Helion Looped Time: {loop_sec:.4f}, Helion Manual Loop Time: {manual_loop_sec:.4f} torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x {baseline_sec / loop_sec:.2f}x {baseline_sec / manual_loop_sec:.2f}x"`
`99`	`99`	`)`
`100`	`100`
`101`	`101`
Original file line number	Diff line number	Diff line change
`@@ -33,7 +33,7 @@ def check(m: int, k: int, n: int) -> None:`
`33`	`33`	`sec = do_bench(lambda: matmul(x, y))`
`34`	`34`	`baseline_sec = do_bench(lambda: torch.matmul(x, y))`
`35`	`35`	`print(`
`36`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`36`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`37`	`37`	`)`
`38`	`38`
`39`	`39`
Original file line number	Diff line number	Diff line change
`@@ -172,7 +172,7 @@ def check(T: int, K: int, N: int, n_experts: int) -> None:`
`172`	`172`	`lambda: moe_matmul_ogs_reference(A, W, top1_expert_per_token)`
`173`	`173`	`)`
`174`	`174`	`print(`
`175`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}s, speed-up: {baseline_sec / sec:.2f}x"`
	`175`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speed-up: {baseline_sec / sec:.2f}x"`
`176`	`176`	`)`
`177`	`177`
`178`	`178`
Original file line number	Diff line number	Diff line change
`@@ -64,7 +64,7 @@ def check(m: int, n: int) -> None:`
`64`	`64`	`sec = do_bench(lambda: softmax(x))`
`65`	`65`	`baseline_sec = do_bench(lambda: torch.nn.functional.softmax(x, dim=1))`
`66`	`66`	`print(`
`67`		`- f"Helion time: {sec:.4f}s, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
	`67`	`+ f"Helion time: {sec:.4f}ms, torch time: {baseline_sec:.4f}, speedup: {baseline_sec / sec:.2f}x"`
`68`	`68`	`)`
`69`	`69`
`70`	`70`