[CODE IMPROVEMENT] Check default RLHF parameters

### 🔧 Proposed code refactoring

Check if our default hyperparameters (e.g. [kl_target](https://github.com/h2oai/h2o-llmstudio/blob/main/llm_studio/python_configs/text_causal_language_modeling_config.py#L154)) are correct, see: https://github.com/lvwerra/trl/commit/b56e8b327733baa81c3ef0d6508f08e1b3e33939  and https://github.com/lvwerra/trl/issues/462

Also, RLHF training is quite unstable w.r.t. parameter choices, see e.g. issues in [trl](https://github.com/lvwerra/trl/issues). Try to find good defaults that work for one (or more) of our finetuned models.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[CODE IMPROVEMENT] Check default RLHF parameters #183

🔧 Proposed code refactoring

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[CODE IMPROVEMENT] Check default RLHF parameters #183

Description

🔧 Proposed code refactoring

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions