interpretability

Here are 7 public repositories matching this topic...

IAAR-Shanghai / Awesome-Attention-Heads

An awesome repository & A comprehensive survey on interpretability of LLM attention heads.

awesome survey transformer gpt attention-mechanism research-paper circuit-analysis interpretability cognitive-neuroscience visualization-tools large-language-models llm chain-of-thought llm-reasoning machine-psychology attention-head-mining

Updated Mar 2, 2025
TeX

jphall663 / hc_ml

Star

Slides, videos and other potentially useful artifacts from various presentations on responsible machine learning.

data-science machine-learning data-mining transparency fairness accountability interpretability interpretable-ai interpretable-ml explainable-ai explainable-ml xai fatml interpretable-machine-learning iml machine-learning-interpretability fairness-ai fairness-ml

Updated Nov 19, 2019
TeX

jphall663 / jsm_2018_paper

Star

Paper for 2018 Joint Statistical Meetings: https://ww2.amstat.org/meetings/jsm/2018/onlineprogram/AbstractDetails.cfm?abstractid=329539

python data-science machine-learning data-mining transparency interpretability interpretable-ai interpretable-ml explainable-ml xai fatml interpretable-machine-learning iml machine-learning-interpretability

Updated Dec 7, 2018
TeX

DavidUdell / SPAR_2024_circuits

Star

Work for SPAR 2024, Circuit Phenomenology Using Sparse Autoencoders

sparse-coding interpretability

Updated Sep 18, 2024
TeX

csirmaz / trained-linearization

Star

Interpreting neural networks by reducing nonlinearities during training

machine-learning lua neural-network torch linearization interpretability rule-extraction

Updated Jul 22, 2019
TeX

ai-library-examples / aix4industries

Star

AI Explainability 360 Toolkit for Time-Series and Industrial Use Cases

ai time-series artificial-intelligence forecasting industrial ibm-research interpretability fault-detection explainable-ai explainable-ml xai ibm-research-ai explainability model-agnostic aix360 kdd2023 aix360-for-time-series-and-industrial-use-cases

Updated Aug 14, 2023
TeX

gabrielhamalwa / magpie

Star

Repository for the LWDA'24 presentation on 'Psychometric Profiling of GPT Models for Bias Exploration', featuring conference materials including the poster, paper, slides, and references.

ai-safety personality-traits interpretability cognitive-bias explainability ai-evaluation gpt-models machine-psychology ai-bias psychometric-analysis lwda24

Updated Sep 23, 2024
TeX

Improve this page

Add a description, image, and links to the interpretability topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the interpretability topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

interpretability

Here are 7 public repositories matching this topic...

IAAR-Shanghai / Awesome-Attention-Heads

jphall663 / hc_ml

jphall663 / jsm_2018_paper

DavidUdell / SPAR_2024_circuits

csirmaz / trained-linearization

ai-library-examples / aix4industries

gabrielhamalwa / magpie

Improve this page

Add this topic to your repo