Unit Tests

Actions

Unit Tests

Actions

Loading...
Loading

3,053 workflow runs

Add --examples Argument for Fine-Grained Task Evaluation in lm-evaluation-harness. This feature is the first step towards efficient multi-prompt evaluation with PromptEval [1,2] Unit Tests #3770: Pull request #2520 synchronize by mirianfsilva

November 26, 2024 19:51

Action required mirianfsilva:examples-arg

mirianfsilva:examples-arg

November 26, 2024 19:51

Action required

November 26, 2024 19:47

Action required mirianfsilva:examples-arg

mirianfsilva:examples-arg

November 26, 2024 19:47

Action required

Score tasks (#2452) Unit Tests #3768: Commit 0ef7548 pushed by baberabb

November 26, 2024 14:54

6m 21s main

main

November 26, 2024 14:54

6m 21s

mlx Model (loglikelihood & generate_until) Unit Tests #3767: Pull request #1902 synchronize by baberabb

November 26, 2024 14:48

5m 50s chimezie:mlx

chimezie:mlx

November 26, 2024 14:48

5m 50s

mlx Model (loglikelihood & generate_until) Unit Tests #3766: Pull request #1902 synchronize by baberabb

November 26, 2024 14:38

6m 32s chimezie:mlx

chimezie:mlx

November 26, 2024 14:38

6m 32s

mlx Model (loglikelihood & generate_until) Unit Tests #3765: Pull request #1902 synchronize by baberabb

November 26, 2024 14:34

2m 19s chimezie:mlx

chimezie:mlx

November 26, 2024 14:34

2m 19s

Score tasks Unit Tests #3764: Pull request #2452 synchronize by rimashahbazyan

November 26, 2024 13:09

6m 26s rimashahbazyan:score_tasks

rimashahbazyan:score_tasks

November 26, 2024 13:09

6m 26s

make utility function to handle until Unit Tests #3763: Pull request #2518 synchronize by baberabb

November 26, 2024 10:49

5m 55s stop_seq

stop_seq

November 26, 2024 10:49

5m 55s

make utility function to handle until Unit Tests #3762: Pull request #2518 opened by baberabb

November 26, 2024 10:39

6m 59s stop_seq

stop_seq

November 26, 2024 10:39

6m 59s

Filters bugfix; add metrics and filter to logged sample Unit Tests #3761: Pull request #2517 synchronize by baberabb

November 26, 2024 09:47

5m 55s filters

filters

November 26, 2024 09:47

5m 55s

Filters bugfix; add metrics and filter to logged sample Unit Tests #3760: Pull request #2517 opened by baberabb

November 26, 2024 08:52

6m 16s filters

filters

November 26, 2024 08:52

6m 16s

max_length not used Unit Tests #3759: Pull request #2515 opened by lintangsutawika

November 25, 2024 16:53

7m 59s lintangsutawika-patch-5

lintangsutawika-patch-5

November 25, 2024 16:53

7m 59s

Update Unitxt task to use locally installed unitxt and not download Unitxt code from Huggingface Unit Tests #3758: Pull request #2514 synchronize by yoavkatz

November 25, 2024 16:04

6m 10s yoavkatz:main

yoavkatz:main

November 25, 2024 16:04

6m 10s

Update Unitxt task to use locally installed unitxt and not download Unitxt code from Huggingface Unit Tests #3757: Pull request #2514 opened by yoavkatz

November 25, 2024 12:59

6m 42s yoavkatz:main

yoavkatz:main

November 25, 2024 12:59

6m 42s

mlx Model (loglikelihood & generate_until) Unit Tests #3756: Pull request #1902 synchronize by chimezie

November 25, 2024 09:49

Action required chimezie:mlx

chimezie:mlx

November 25, 2024 09:49

Action required

Added small fix to split by eos_token_id before decoding Unit Tests #3755: Pull request #2512 opened by EtashGuha

November 24, 2024 02:26

Action required EtashGuha:etashg/tokenize_fix

EtashGuha:etashg/tokenize_fix

November 24, 2024 02:26

Action required

Update citation links (Zenodo and DOI) to 0.4.6 Unit Tests #3754: Pull request #2391 synchronize by LSinev

November 23, 2024 16:16

6m 58s LSinev:patch-1

LSinev:patch-1

November 23, 2024 16:16

6m 58s

mlx Model (loglikelihood & generate_until) Unit Tests #3753: Pull request #1902 synchronize by chimezie

November 23, 2024 01:34

Action required chimezie:mlx

chimezie:mlx

November 23, 2024 01:34

Action required

mlx Model (loglikelihood & generate_until) Unit Tests #3752: Pull request #1902 synchronize by chimezie

November 23, 2024 01:25

Action required chimezie:mlx

chimezie:mlx

November 23, 2024 01:25

Action required

parse tokenizer_backend=None properly (#2509) Unit Tests #3750: Commit 9d36354 pushed by baberabb

November 22, 2024 20:48

7m 13s main

main

November 22, 2024 20:48

7m 13s

[API models] parse tokenizer_backend=None properly Unit Tests #3749: Pull request #2509 opened by baberabb

November 22, 2024 20:32

6m 22s completions

completions

November 22, 2024 20:32

6m 22s

Add GigaChat API Unit Tests #3747: Pull request #2495 synchronize by seldereyy

November 22, 2024 10:56

Action required seldereyy:models/gigachat_llms

seldereyy:models/gigachat_llms

November 22, 2024 10:56

Action required

Add GigaChat API Unit Tests #3746: Pull request #2495 synchronize by seldereyy

November 22, 2024 10:56

Action required seldereyy:models/gigachat_llms

seldereyy:models/gigachat_llms

November 22, 2024 10:56

Action required

Add GigaChat API Unit Tests #3745: Pull request #2495 synchronize by seldereyy

November 22, 2024 10:09

Action required seldereyy:models/gigachat_llms

seldereyy:models/gigachat_llms

November 22, 2024 10:09

Action required

mlx Model (loglikelihood & generate_until) Unit Tests #3744: Pull request #1902 synchronize by chimezie

November 22, 2024 01:24

3m 6s chimezie:mlx

chimezie:mlx

November 22, 2024 01:24

3m 6s

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Actions

Workflows

Management

Unit Tests

Actions

Loading...
Loading

Create status badge

Filter by Event

Sorry, something went wrong.

Sorry, something went wrong.

No matching events.

Filter by Status

Sorry, something went wrong.

Sorry, something went wrong.

No matching statuses.

Filter by Branch

Sorry, something went wrong.

Sorry, something went wrong.

No matching branches.

Filter by Actor

Sorry, something went wrong.

Sorry, something went wrong.

No matching users.

Actions: EleutherAI/lm-evaluation-harness

Actions

Unit Tests Unit Tests Actions Loading... Loading Sorry, something went wrong.

Unit Tests

Unit Tests

Actions

Loading...
Loading