ggml-backend : move ggml_backend and ggml_backend_buffer in the source file

ggerganov · ggerganov · commit e1351e9278e1 · 2023-10-05T13:49:30.000+03:00
diff --git a/include/ggml/ggml-backend.h b/include/ggml/ggml-backend.h
@@ -5,13 +5,18 @@
 #ifdef  __cplusplus
 extern "C" {
 #endif
+    struct ggml_backend;
     struct ggml_backend_buffer;
 
     // type-erased backend-specific types / wrappers
     typedef void * ggml_backend_plan_t;
     typedef void * ggml_backend_context_t;
     typedef void * ggml_backend_buffer_context_t;
 
+    //
+    // backend buffer
+    //
+
     struct ggml_backend_buffer_i {
         void   (*free_buffer)   (struct ggml_backend_buffer * buffer);
         void * (*get_base)      (struct ggml_backend_buffer * buffer); // get base pointer
@@ -20,16 +25,6 @@ extern "C" {
         void   (*free_tensor)   (struct ggml_backend_buffer * buffer, struct ggml_tensor * tensor); // pre-free callback
     };
 
-    struct ggml_backend_buffer {
-        struct ggml_backend * backend;
-
-        struct ggml_backend_buffer_i interface;
-
-        ggml_backend_buffer_context_t context;
-
-        size_t size; // GG: can we absorb the size inside the context?
-    };
-
     // backend buffer functions
     GGML_API struct ggml_backend_buffer * ggml_backend_buffer_init(
             struct ggml_backend                  * backend,
@@ -40,11 +35,14 @@ extern "C" {
     GGML_API void   ggml_backend_buffer_free          (struct ggml_backend_buffer * buffer);
     GGML_API size_t ggml_backend_buffer_get_alignment (struct ggml_backend_buffer * buffer);
     GGML_API void * ggml_backend_buffer_get_base      (struct ggml_backend_buffer * buffer);
+    GGML_API size_t ggml_backend_buffer_get_size      (struct ggml_backend_buffer * buffer);
     GGML_API size_t ggml_backend_buffer_get_alloc_size(struct ggml_backend_buffer * buffer, struct ggml_tensor * tensor);
     GGML_API void   ggml_backend_buffer_init_tensor   (struct ggml_backend_buffer * buffer, struct ggml_tensor * tensor);
     GGML_API void   ggml_backend_buffer_free_tensor   (struct ggml_backend_buffer * buffer, struct ggml_tensor * tensor);
 
+    //
     // backend
+    //
 
     struct ggml_backend_i {
         const char * (*get_name)(struct ggml_backend * backend);
@@ -79,41 +77,37 @@ extern "C" {
         bool (*supports_op)(struct ggml_backend * backend, const struct ggml_tensor * op);
     };
 
-    struct ggml_backend {
-        struct ggml_backend_i interface;
-
-        ggml_backend_context_t context;
-    };
-
     // backend helper functions
-    // TODO: we should move these implementations in the source file
-    static inline struct ggml_backend * ggml_get_backend(const struct ggml_tensor * tensor) { return tensor->buffer->backend; }
+    GGML_API struct ggml_backend * ggml_get_backend(const struct ggml_tensor * tensor);
 
-    static inline const char * ggml_backend_name(struct ggml_backend * backend) { return backend->interface.get_name(backend); }
-    static inline void         ggml_backend_free(struct ggml_backend * backend) { backend->interface.free(backend); }
+    GGML_API const char * ggml_backend_name(struct ggml_backend * backend);
+    GGML_API void         ggml_backend_free(struct ggml_backend * backend);
 
-    static inline struct ggml_backend_buffer * ggml_backend_alloc_buffer(struct ggml_backend * backend, size_t size) { return backend->interface.alloc_buffer(backend, size); }
+    GGML_API struct ggml_backend_buffer * ggml_backend_alloc_buffer(struct ggml_backend * backend, size_t size);
 
-    static inline size_t ggml_backend_get_alignment(struct ggml_backend * backend) { return backend->interface.get_alignment(backend); }
+    GGML_API size_t ggml_backend_get_alignment(struct ggml_backend * backend);
 
-    static inline void ggml_backend_tensor_set_async(      struct ggml_tensor * tensor, const void * data, size_t offset, size_t size) { ggml_get_backend(tensor)->interface.set_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size); }
-    static inline void ggml_backend_tensor_get_async(const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size) { ggml_get_backend(tensor)->interface.get_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size); }
+    GGML_API void ggml_backend_tensor_set_async(      struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
+    GGML_API void ggml_backend_tensor_get_async(const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
 
-    static inline void ggml_backend_tensor_set(      struct ggml_tensor * tensor, const void * data, size_t offset, size_t size) { ggml_get_backend(tensor)->interface.set_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size); ggml_get_backend(tensor)->interface.synchronize(ggml_get_backend(tensor)); }
-    static inline void ggml_backend_tensor_get(const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size) { ggml_get_backend(tensor)->interface.get_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size); ggml_get_backend(tensor)->interface.synchronize(ggml_get_backend(tensor)); }
+    GGML_API void ggml_backend_tensor_set(      struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
+    GGML_API void ggml_backend_tensor_get(const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
 
-    static inline void ggml_backend_synchronize(struct ggml_backend * backend) { backend->interface.synchronize(backend); }
+    GGML_API void ggml_backend_synchronize(struct ggml_backend * backend);
 
-    static inline ggml_backend_plan_t ggml_backend_graph_plan_create (struct ggml_backend * backend, struct ggml_cgraph * cgraph)   { return backend->interface.graph_plan_create(backend, cgraph); }
-    static inline void                ggml_backend_graph_plan_free   (struct ggml_backend * backend, ggml_backend_plan_t plan)      { backend->interface.graph_plan_free(backend, plan); }
-    static inline void                ggml_backend_graph_plan_compute(struct ggml_backend * backend, ggml_backend_plan_t plan)      { backend->interface.graph_plan_compute(backend, plan); }
-    static inline void                ggml_backend_graph_compute     (struct ggml_backend * backend, struct ggml_cgraph * cgraph)   { backend->interface.graph_compute(backend, cgraph); }
-    static inline bool                ggml_backend_supports_op       (struct ggml_backend * backend, const struct ggml_tensor * op) { return backend->interface.supports_op(backend, op); }
+    GGML_API ggml_backend_plan_t ggml_backend_graph_plan_create (struct ggml_backend * backend, struct ggml_cgraph * cgraph);
+    GGML_API void                ggml_backend_graph_plan_free   (struct ggml_backend * backend, ggml_backend_plan_t plan);
+    GGML_API void                ggml_backend_graph_plan_compute(struct ggml_backend * backend, ggml_backend_plan_t plan);
+    GGML_API void                ggml_backend_graph_compute     (struct ggml_backend * backend, struct ggml_cgraph * cgraph);
+    GGML_API bool                ggml_backend_supports_op       (struct ggml_backend * backend, const struct ggml_tensor * op);
 
     // tensor copy between different backends
     GGML_API void ggml_backend_tensor_copy(struct ggml_tensor * src, struct ggml_tensor * dst);
 
+    //
     // CPU backend
+    //
+
     GGML_API struct ggml_backend * ggml_backend_cpu_init(void);
 
     GGML_API void ggml_backend_cpu_set_n_threads(struct ggml_backend * backend_cpu, int n_threads);
diff --git a/src/ggml-alloc.c b/src/ggml-alloc.c
@@ -265,7 +265,7 @@ void ggml_allocr_reset(struct ggml_allocr * alloc) {
     alloc->n_free_blocks = 1;
     size_t align_offset = aligned_offset(alloc->data, 0, alloc->alignment);
     alloc->free_blocks[0].addr = (char *)alloc->data + align_offset;
-    alloc->free_blocks[0].size = alloc->buffer->size - align_offset;
+    alloc->free_blocks[0].size = ggml_backend_buffer_get_size(alloc->buffer) - align_offset;
 }
 
 struct ggml_allocr * ggml_allocr_new(void * data, size_t size, size_t alignment) {
diff --git a/src/ggml-backend.c b/src/ggml-backend.c
@@ -11,6 +11,22 @@
 
 #define MAX(a, b) ((a) > (b) ? (a) : (b))
 
+struct ggml_backend {
+    struct ggml_backend_i interface;
+
+    ggml_backend_context_t context;
+};
+
+struct ggml_backend_buffer {
+    struct ggml_backend * backend;
+
+    struct ggml_backend_buffer_i interface;
+
+    ggml_backend_buffer_context_t context;
+
+    size_t size; // GG: can we absorb the size inside the context?
+};
+
 // backend buffer
 
 struct ggml_backend_buffer * ggml_backend_buffer_init(
@@ -46,6 +62,10 @@ void * ggml_backend_buffer_get_base(struct ggml_backend_buffer * buffer) {
     return buffer->interface.get_base(buffer);
 }
 
+size_t ggml_backend_buffer_get_size(struct ggml_backend_buffer * buffer) {
+    return buffer->size;
+}
+
 size_t ggml_backend_buffer_get_alloc_size(struct ggml_backend_buffer * buffer, struct ggml_tensor * tensor) {
     if (buffer->interface.get_alloc_size) {
         return buffer->interface.get_alloc_size(buffer, tensor);
@@ -65,6 +85,70 @@ void ggml_backend_buffer_free_tensor(struct ggml_backend_buffer * buffer, struct
     }
 }
 
+// backend
+
+struct ggml_backend * ggml_get_backend(const struct ggml_tensor * tensor) {
+    return tensor->buffer->backend;
+}
+
+const char * ggml_backend_name(struct ggml_backend * backend) {
+    return backend->interface.get_name(backend);
+}
+
+void ggml_backend_free(struct ggml_backend * backend) {
+    backend->interface.free(backend);
+}
+
+struct ggml_backend_buffer * ggml_backend_alloc_buffer(struct ggml_backend * backend, size_t size) {
+    return backend->interface.alloc_buffer(backend, size);
+}
+
+size_t ggml_backend_get_alignment(struct ggml_backend * backend) {
+    return backend->interface.get_alignment(backend);
+}
+
+void ggml_backend_tensor_set_async(struct ggml_tensor * tensor, const void * data, size_t offset, size_t size) {
+    ggml_get_backend(tensor)->interface.set_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size);
+}
+
+void ggml_backend_tensor_get_async(const struct ggml_tensor * tensor, void * data, size_t offset, size_t size) {
+    ggml_get_backend(tensor)->interface.get_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size);
+}
+
+void ggml_backend_tensor_set(struct ggml_tensor * tensor, const void * data, size_t offset, size_t size) {
+    ggml_get_backend(tensor)->interface.set_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size);
+    ggml_get_backend(tensor)->interface.synchronize(ggml_get_backend(tensor));
+}
+
+void ggml_backend_tensor_get(const struct ggml_tensor * tensor, void * data, size_t offset, size_t size) {
+    ggml_get_backend(tensor)->interface.get_tensor_async(ggml_get_backend(tensor), tensor, data, offset, size);
+    ggml_get_backend(tensor)->interface.synchronize(ggml_get_backend(tensor));
+}
+
+void ggml_backend_synchronize(struct ggml_backend * backend) {
+    backend->interface.synchronize(backend);
+}
+
+ggml_backend_plan_t ggml_backend_graph_plan_create(struct ggml_backend * backend, struct ggml_cgraph * cgraph) {
+    return backend->interface.graph_plan_create(backend, cgraph);
+}
+
+void ggml_backend_graph_plan_free(struct ggml_backend * backend, ggml_backend_plan_t plan) {
+    backend->interface.graph_plan_free(backend, plan);
+}
+
+void ggml_backend_graph_plan_compute(struct ggml_backend * backend, ggml_backend_plan_t plan) {
+    backend->interface.graph_plan_compute(backend, plan);
+}
+
+void ggml_backend_graph_compute(struct ggml_backend * backend, struct ggml_cgraph * cgraph) {
+    backend->interface.graph_compute(backend, cgraph);
+}
+
+bool ggml_backend_supports_op(struct ggml_backend * backend, const struct ggml_tensor * op) {
+    return backend->interface.supports_op(backend, op);
+}
+
 // backend copy
 
 static bool ggml_are_same_layout(const struct ggml_tensor * a, const struct ggml_tensor * b) {

Original file line number	Diff line number	Diff line change
`@@ -265,7 +265,7 @@ void ggml_allocr_reset(struct ggml_allocr * alloc) {`
`265`	`265`	`alloc->n_free_blocks = 1;`
`266`	`266`	`size_t align_offset = aligned_offset(alloc->data, 0, alloc->alignment);`
`267`	`267`	`alloc->free_blocks[0].addr = (char *)alloc->data + align_offset;`
`268`		`- alloc->free_blocks[0].size = alloc->buffer->size - align_offset;`
	`268`	`+ alloc->free_blocks[0].size = ggml_backend_buffer_get_size(alloc->buffer) - align_offset;`
`269`	`269`	`}`
`270`	`270`
`271`	`271`	`struct ggml_allocr * ggml_allocr_new(void * data, size_t size, size_t alignment) {`