rapidsai
diff --git a/‎ci/cudf_pandas_scripts/pandas-tests/run.sh
+6 b/‎ci/cudf_pandas_scripts/pandas-tests/run.sh
+6
diff --git a/‎cpp/src/column/column_view.cpp
+2-2 b/‎cpp/src/column/column_view.cpp
+2-2
diff --git a/‎cpp/src/io/parquet/page_enc.cu
+1 b/‎cpp/src/io/parquet/page_enc.cu
+1
diff --git a/‎cpp/src/strings/split/split.cu
+23-22 b/‎cpp/src/strings/split/split.cu
+23-22
@@ -5,6 +5,10 @@
 
 set -euo pipefail
 
+EXITCODE=0
+trap "EXITCODE=1" ERR
+set +e
+
 PANDAS_TESTS_BRANCH=${1}
 RAPIDS_FULL_VERSION=$(<./VERSION)
 rapids-logger "Running Pandas tests using $PANDAS_TESTS_BRANCH branch and rapids-version $RAPIDS_FULL_VERSION"
@@ -43,3 +47,5 @@ RAPIDS_ARTIFACTS_DIR=${RAPIDS_ARTIFACTS_DIR:-"${PWD}/artifacts"}
 mkdir -p "${RAPIDS_ARTIFACTS_DIR}"
 mv pandas-testing/"${SUMMARY_FILE_NAME}" "${RAPIDS_ARTIFACTS_DIR}"/
 rapids-upload-to-s3 "${RAPIDS_ARTIFACTS_DIR}"/"${SUMMARY_FILE_NAME}" "${RAPIDS_ARTIFACTS_DIR}"
+rapids-logger "Test script exiting with value: $EXITCODE"
+exit ${EXITCODE}
@@ -17,6 +17,7 @@
 #include <cudf/column/column_view.hpp>
 #include <cudf/detail/null_mask.hpp>
 #include <cudf/hashing/detail/hashing.hpp>
+#include <cudf/logger_macros.hpp>
 #include <cudf/strings/strings_column_view.hpp>
 #include <cudf/types.hpp>
 #include <cudf/utilities/default_stream.hpp>
@@ -55,8 +56,7 @@ void prefetch_col_data(ColumnView& col, void const* data_ptr, std::string_view k
         scv.chars_size(cudf::get_default_stream()) * sizeof(char),
         cudf::get_default_stream());
     } else {
-      std::cout << key << ": Unsupported type: " << static_cast<int32_t>(col.type().id())
-                << std::endl;
+      CUDF_LOG_DEBUG("Unsupported type: %d", static_cast<int32_t>(col.type().id()));
     }
   }
 }
 
@@ -689,6 +689,7 @@ CUDF_KERNEL void __launch_bounds__(128)
           util::round_up_unsafe(page_g.max_hdr_size + page_g.max_data_size, page_align);
         if (not comp_page_sizes.empty()) {
           comp_page_offset += page_g.max_hdr_size + comp_page_sizes[ck_g.first_page];
+          page_g.comp_data_size = comp_page_sizes[ck_g.first_page + num_pages];
         }
         page_headers_size += page_g.max_hdr_size;
         max_page_data_size = max(max_page_data_size, page_g.max_data_size);
 
@@ -105,14 +105,19 @@ namespace {
  *      6    ''    aa  b__ccc__
  * ```
  *
- * @tparam Tokenizer provides unique functions for split/rsplit.
- * @param strings_column The strings to split
+ * @tparam Tokenizer provides unique functions for split/rsplit
+ * @tparam DelimiterFn Functor for locating delimiters
+ * @param input The strings to split
  * @param tokenizer Tokenizer for counting and producing tokens
+ * @param delimiter_fn Functor called on each byte to check for delimiters
+ * @param stream CUDA stream used for device memory operations and kernel launches
+ * @param mr Device memory resource used to allocate the returned objects' device memory
  * @return table of columns for the output of the split
  */
-template <typename Tokenizer>
+template <typename Tokenizer, typename DelimiterFn>
 std::unique_ptr<table> split_fn(strings_column_view const& input,
                                 Tokenizer tokenizer,
+                                DelimiterFn delimiter_fn,
                                 rmm::cuda_stream_view stream,
                                 rmm::device_async_resource_ref mr)
 {
@@ -123,7 +128,7 @@ std::unique_ptr<table> split_fn(strings_column_view const& input,
   }
 
   // builds the offsets and the vector of all tokens
-  auto [offsets, tokens] = split_helper(input, tokenizer, stream, mr);
+  auto [offsets, tokens] = split_helper(input, tokenizer, delimiter_fn, stream, mr);
   auto const d_offsets   = cudf::detail::offsetalator_factory::make_input_iterator(offsets->view());
   auto const d_tokens    = tokens.data();
 
@@ -386,7 +391,7 @@ std::unique_ptr<table> whitespace_split_fn(size_type strings_count,
 
 }  // namespace
 
-std::unique_ptr<table> split(strings_column_view const& strings_column,
+std::unique_ptr<table> split(strings_column_view const& input,
                              string_scalar const& delimiter,
                              size_type maxsplit,
                              rmm::cuda_stream_view stream,
@@ -396,20 +401,18 @@ std::unique_ptr<table> split(strings_column_view const& strings_column,
 
   size_type max_tokens = maxsplit > 0 ? maxsplit + 1 : std::numeric_limits<size_type>::max();
 
-  auto strings_device_view = column_device_view::create(strings_column.parent(), stream);
+  auto d_strings = column_device_view::create(input.parent(), stream);
   if (delimiter.size() == 0) {
-    return whitespace_split_fn(strings_column.size(),
-                               whitespace_split_tokenizer_fn{*strings_device_view, max_tokens},
-                               stream,
-                               mr);
+    return whitespace_split_fn(
+      input.size(), whitespace_split_tokenizer_fn{*d_strings, max_tokens}, stream, mr);
   }
 
-  string_view d_delimiter(delimiter.data(), delimiter.size());
-  return split_fn(
-    strings_column, split_tokenizer_fn{*strings_device_view, d_delimiter, max_tokens}, stream, mr);
+  auto tokenizer    = split_tokenizer_fn{*d_strings, delimiter.size(), max_tokens};
+  auto delimiter_fn = string_delimiter_fn{delimiter.value(stream)};
+  return split_fn(input, tokenizer, delimiter_fn, stream, mr);
 }
 
-std::unique_ptr<table> rsplit(strings_column_view const& strings_column,
+std::unique_ptr<table> rsplit(strings_column_view const& input,
                               string_scalar const& delimiter,
                               size_type maxsplit,
                               rmm::cuda_stream_view stream,
@@ -419,17 +422,15 @@ std::unique_ptr<table> rsplit(strings_column_view const& strings_column,
 
   size_type max_tokens = maxsplit > 0 ? maxsplit + 1 : std::numeric_limits<size_type>::max();
 
-  auto strings_device_view = column_device_view::create(strings_column.parent(), stream);
+  auto d_strings = column_device_view::create(input.parent(), stream);
   if (delimiter.size() == 0) {
-    return whitespace_split_fn(strings_column.size(),
-                               whitespace_rsplit_tokenizer_fn{*strings_device_view, max_tokens},
-                               stream,
-                               mr);
+    return whitespace_split_fn(
+      input.size(), whitespace_rsplit_tokenizer_fn{*d_strings, max_tokens}, stream, mr);
   }
 
-  string_view d_delimiter(delimiter.data(), delimiter.size());
-  return split_fn(
-    strings_column, rsplit_tokenizer_fn{*strings_device_view, d_delimiter, max_tokens}, stream, mr);
+  auto tokenizer    = rsplit_tokenizer_fn{*d_strings, delimiter.size(), max_tokens};
+  auto delimiter_fn = string_delimiter_fn{delimiter.value(stream)};
+  return split_fn(input, tokenizer, delimiter_fn, stream, mr);
 }
 
 }  // namespace detail
Original file line number	Diff line number	Diff line change
`@@ -17,6 +17,7 @@`
`17`	`17`	`#include <cudf/column/column_view.hpp>`
`18`	`18`	`#include <cudf/detail/null_mask.hpp>`
`19`	`19`	`#include <cudf/hashing/detail/hashing.hpp>`
	`20`	`+#include <cudf/logger_macros.hpp>`
`20`	`21`	`#include <cudf/strings/strings_column_view.hpp>`
`21`	`22`	`#include <cudf/types.hpp>`
`22`	`23`	`#include <cudf/utilities/default_stream.hpp>`
`@@ -55,8 +56,7 @@ void prefetch_col_data(ColumnView& col, void const* data_ptr, std::string_view k`
`55`	`56`	`scv.chars_size(cudf::get_default_stream()) * sizeof(char),`
`56`	`57`	`cudf::get_default_stream());`
`57`	`58`	`} else {`
`58`		`- std::cout << key << ": Unsupported type: " << static_cast<int32_t>(col.type().id())`
`59`		`- << std::endl;`
	`59`	`+ CUDF_LOG_DEBUG("Unsupported type: %d", static_cast<int32_t>(col.type().id()));`
`60`	`60`	`}`
`61`	`61`	`}`
`62`	`62`	`}`
Original file line number	Diff line number	Diff line change
`@@ -689,6 +689,7 @@ CUDF_KERNEL void __launch_bounds__(128)`
`689`	`689`	`util::round_up_unsafe(page_g.max_hdr_size + page_g.max_data_size, page_align);`
`690`	`690`	`if (not comp_page_sizes.empty()) {`
`691`	`691`	`comp_page_offset += page_g.max_hdr_size + comp_page_sizes[ck_g.first_page];`
	`692`	`+ page_g.comp_data_size = comp_page_sizes[ck_g.first_page + num_pages];`
`692`	`693`	`}`
`693`	`694`	`page_headers_size += page_g.max_hdr_size;`
`694`	`695`	`max_page_data_size = max(max_page_data_size, page_g.max_data_size);`