Interface ReinforcementTuningHyperParameters

Hyperparameters for Reinforcement Tuning.

interface ReinforcementTuningHyperParameters {
    adapterSize?: AdapterSize;
    batchSize?: number;
    checkpointInterval?: number;
    epochCount?: string;
    evaluateInterval?: number;
    learningRateMultiplier?: number;
    maxOutputTokens?: number;
    samplesPerPrompt?: number;
    thinkingLevel?: ReinforcementTuningThinkingLevel;
}

Index

Properties

adapterSize? batchSize? checkpointInterval? epochCount? evaluateInterval? learningRateMultiplier? maxOutputTokens? samplesPerPrompt? thinkingLevel?

Properties

`Optional`adapterSize

adapterSize?: AdapterSize

Adapter size for Reinforcement Tuning.

`Optional`batchSize

batchSize?: number

Batch size for the tuning job. How many prompts to process at a train step. If not set, the batch size will be determined automatically.

`Optional`checkpointInterval

checkpointInterval?: number

How often (in steps) to save checkpoints during training. If not set, one checkpoint per epoch will be saved.

`Optional`epochCount

epochCount?: string

Number of training epochs for the tuning job.

`Optional`evaluateInterval

evaluateInterval?: number

How often (in steps) to evaluate the tuning job during training. If not set, evaluation will run per epoch.

`Optional`learningRateMultiplier

learningRateMultiplier?: number

Learning rate multiplier for Reinforcement Learning.

`Optional`maxOutputTokens

maxOutputTokens?: number

The maximum number of tokens to generate per prompt. If not set, defaults to 32768.

`Optional`samplesPerPrompt

samplesPerPrompt?: number

Number of different responses to generate per prompt during tuning.

`Optional`thinkingLevel

thinkingLevel?: ReinforcementTuningThinkingLevel

Indicates the maximum thinking depth. Use with earlier models shall result in error.

Interface ReinforcementTuningHyperParameters

Index

Properties

Properties

`Optional`adapterSize

`Optional`batchSize

`Optional`checkpointInterval

`Optional`epochCount

`Optional`evaluateInterval

`Optional`learningRateMultiplier

`Optional`maxOutputTokens

`Optional`samplesPerPrompt

`Optional`thinkingLevel

Settings

On This Page

Interface ReinforcementTuningHyperParameters

Index

Properties

Properties

OptionaladapterSize

OptionalbatchSize

OptionalcheckpointInterval

OptionalepochCount

OptionalevaluateInterval

OptionallearningRateMultiplier

OptionalmaxOutputTokens

OptionalsamplesPerPrompt

OptionalthinkingLevel

Settings

On This Page

`Optional`adapterSize

`Optional`batchSize

`Optional`checkpointInterval

`Optional`epochCount

`Optional`evaluateInterval

`Optional`learningRateMultiplier

`Optional`maxOutputTokens

`Optional`samplesPerPrompt

`Optional`thinkingLevel