Interface ReinforcementTuningSpec

Reinforcement tuning spec for tuning.

interface ReinforcementTuningSpec {
    compositeRewardConfig?: CompositeReinforcementTuningRewardConfig;
    hyperParameters?: ReinforcementTuningHyperParameters;
    singleRewardConfig?: SingleReinforcementTuningRewardConfig;
    trainingDatasetUri?: string;
    validationDatasetUri?: string;
}

Index

Properties

compositeRewardConfig? hyperParameters? singleRewardConfig? trainingDatasetUri? validationDatasetUri?

Properties

`Optional`compositeRewardConfig

compositeRewardConfig?: CompositeReinforcementTuningRewardConfig

`Optional`hyperParameters

hyperParameters?: ReinforcementTuningHyperParameters

Additional hyper-parameters to use during tuning.

`Optional`singleRewardConfig

singleRewardConfig?: SingleReinforcementTuningRewardConfig

Single reward function configuration for reinforcement tuning.

`Optional`trainingDatasetUri

trainingDatasetUri?: string

Cloud Storage path to file containing training dataset for tuning. The dataset must be formatted as a JSONL file.

`Optional`validationDatasetUri

validationDatasetUri?: string

Cloud Storage path to file containing validation dataset for tuning. The dataset must be formatted as a JSONL file. If no validation dataset is provided, by default the API splits 25% of the training dataset or 50 examples, whichever is larger, as the validation dataset.

Interface ReinforcementTuningSpec

Index

Properties

Properties

`Optional`compositeRewardConfig

`Optional`hyperParameters

`Optional`singleRewardConfig

`Optional`trainingDatasetUri

`Optional`validationDatasetUri

Settings

On This Page

Interface ReinforcementTuningSpec

Index

Properties

Properties

OptionalcompositeRewardConfig

OptionalhyperParameters

OptionalsingleRewardConfig

OptionaltrainingDatasetUri

OptionalvalidationDatasetUri

Settings

On This Page

`Optional`compositeRewardConfig

`Optional`hyperParameters

`Optional`singleRewardConfig

`Optional`trainingDatasetUri

`Optional`validationDatasetUri