Посмотреть на TensorFlow.org | Запустить в Google Colab | Посмотреть исходный код на GitHub | Скачать блокнот |
В этом руководстве показано, как использовать tf.distribute.Strategy с пользовательскими циклами обучения. Мы будем обучать простую модель CNN на наборе данных моды MNIST. Набор данных fashion MNIST содержит 60 000 изображений поездов размером 28 x 28 и 10 000 тестовых изображений размером 28 x 28.
Мы используем настраиваемые циклы обучения для обучения нашей модели, потому что они дают нам гибкость и больший контроль над обучением. Кроме того, легче отладить модель и цикл обучения.
# Import TensorFlow
import tensorflow as tf
# Helper libraries
import numpy as np
import os
print(tf.__version__)
2.8.0-rc1
Загрузите набор данных моды MNIST
fashion_mnist = tf.keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()
# Adding a dimension to the array -> new shape == (28, 28, 1)
# We are doing this because the first layer in our model is a convolutional
# layer and it requires a 4D input (batch_size, height, width, channels).
# batch_size dimension will be added later on.
train_images = train_images[..., None]
test_images = test_images[..., None]
# Getting the images in [0, 1] range.
train_images = train_images / np.float32(255)
test_images = test_images / np.float32(255)
Создайте стратегию для распределения переменных и графика
Как работает стратегия tf.distribute.MirroredStrategy ?
- Все переменные и график модели тиражируются на репликах.
- Ввод равномерно распределяется по репликам.
- Каждая реплика вычисляет потери и градиенты для полученных входных данных.
- Градиенты синхронизируются по всем репликам путем их суммирования.
- После синхронизации такое же обновление выполняется для копий переменных на каждой реплике.
# If the list of devices is not specified in the
# `tf.distribute.MirroredStrategy` constructor, it will be auto-detected.
strategy = tf.distribute.MirroredStrategy()
INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
print ('Number of devices: {}'.format(strategy.num_replicas_in_sync))
Number of devices: 1
Настройка входного конвейера
Экспортируйте график и переменные в независимый от платформы формат SavedModel. После того, как ваша модель сохранена, вы можете загрузить ее с прицелом или без него.
BUFFER_SIZE = len(train_images)
BATCH_SIZE_PER_REPLICA = 64
GLOBAL_BATCH_SIZE = BATCH_SIZE_PER_REPLICA * strategy.num_replicas_in_sync
EPOCHS = 10
Создайте наборы данных и распространите их:
train_dataset = tf.data.Dataset.from_tensor_slices((train_images, train_labels)).shuffle(BUFFER_SIZE).batch(GLOBAL_BATCH_SIZE)
test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE)
train_dist_dataset = strategy.experimental_distribute_dataset(train_dataset)
test_dist_dataset = strategy.experimental_distribute_dataset(test_dataset)
2022-01-26 05:45:53.991501: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_UINT8
}
}
}
attr {
key: "_cardinality"
value {
i: 60000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:0"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
dim {
size: 1
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_UINT8
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_UINT8
}
}
}
}
}
2022-01-26 05:45:54.034762: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_UINT8
}
}
}
attr {
key: "_cardinality"
value {
i: 10000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:3"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
dim {
size: 1
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_UINT8
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_UINT8
}
}
}
}
}
Создайте модель
Создайте модель с помощью tf.keras.Sequential . Для этого вы также можете использовать API подклассов моделей.
def create_model():
model = tf.keras.Sequential([
tf.keras.layers.Conv2D(32, 3, activation='relu'),
tf.keras.layers.MaxPooling2D(),
tf.keras.layers.Conv2D(64, 3, activation='relu'),
tf.keras.layers.MaxPooling2D(),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(64, activation='relu'),
tf.keras.layers.Dense(10)
])
return model
# Create a checkpoint directory to store the checkpoints.
checkpoint_dir = './training_checkpoints'
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
Определите функцию потерь
Обычно на одной машине с 1 GPU/CPU потери делятся на количество примеров в пакете ввода.
Итак, как следует рассчитывать потери при использовании tf.distribute.Strategy ?
Например, предположим, что у вас есть 4 графических процессора и размер пакета 64. Один пакет входных данных распределяется по репликам (4 графических процессора), каждая реплика получает входные данные размером 16.
Модель на каждой реплике выполняет прямой проход с соответствующим входом и вычисляет потери. Теперь вместо деления потерь на количество примеров в соответствующих входных данных (BATCH_SIZE_PER_REPLICA = 16) потери следует разделить на GLOBAL_BATCH_SIZE (64).
Зачем это делать?
- Это необходимо сделать, потому что после того, как градиенты рассчитаны для каждой реплики, они синхронизируются между репликами путем их суммирования .
Как это сделать в TensorFlow?
Если вы пишете собственный цикл обучения, как в этом руководстве, вы должны
tf.nn.compute_average_lossпотери для каждого примера и разделить сумму наscale_loss = tf.reduce_sum(loss) * (1. / GLOBAL_BATCH_SIZE):tf.nn.compute_average_loss, который принимает потери для каждого примера, необязательные веса выборки и GLOBAL_BATCH_SIZE в качестве аргументов и возвращает масштабированные потери.Если вы используете потери регуляризации в своей модели, вам необходимо масштабировать значение потерь по количеству реплик. Вы можете сделать это с помощью функции
tf.nn.scale_regularization_loss.Использование
tf.reduce_meanне рекомендуется. При этом потери делятся на фактический размер пакета реплики, который может варьироваться от шага к шагу.Это уменьшение и масштабирование выполняется автоматически в keras
model.compileиmodel.fitПри использовании классов
tf.keras.losses(как в приведенном ниже примере) необходимо явно указать уменьшение потерь, чтобы оно было одним изNONEилиSUM.AUTOиSUM_OVER_BATCH_SIZEне допускаются при использовании сtf.distribute.Strategy.AUTOзапрещен, потому что пользователь должен явно подумать о том, какое сокращение он хочет, чтобы убедиться, что оно правильное в распределенном случае.SUM_OVER_BATCH_SIZEзапрещен, поскольку в настоящее время он будет делить только на размер пакета каждой реплики, а деление на количество реплик остается за пользователем, что может быть легко пропущено. Поэтому вместо этого мы просим пользователя выполнить сокращение самостоятельно.Если
labelsмногомерны, усреднитеper_example_lossпо количеству элементов в каждой выборке. Например, если формаpredictions(batch_size, H, W, n_classes)иlabels(batch_size, H, W), вам нужно будет обновитьper_example_lossнапример:per_example_loss /= tf.cast(tf.reduce_prod(tf.shape(labels)[1:]), tf.float32)
with strategy.scope():
# Set reduction to `none` so we can do the reduction afterwards and divide by
# global batch size.
loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
from_logits=True,
reduction=tf.keras.losses.Reduction.NONE)
def compute_loss(labels, predictions):
per_example_loss = loss_object(labels, predictions)
return tf.nn.compute_average_loss(per_example_loss, global_batch_size=GLOBAL_BATCH_SIZE)
Определите показатели для отслеживания потерь и точности
Эти показатели отслеживают потери при тестировании, а также точность обучения и тестирования. Вы можете использовать .result() для получения накопленной статистики в любое время.
with strategy.scope():
test_loss = tf.keras.metrics.Mean(name='test_loss')
train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
name='train_accuracy')
test_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
name='test_accuracy')
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
Тренировочный цикл
# model, optimizer, and checkpoint must be created under `strategy.scope`.
with strategy.scope():
model = create_model()
optimizer = tf.keras.optimizers.Adam()
checkpoint = tf.train.Checkpoint(optimizer=optimizer, model=model)
def train_step(inputs):
images, labels = inputs
with tf.GradientTape() as tape:
predictions = model(images, training=True)
loss = compute_loss(labels, predictions)
gradients = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(gradients, model.trainable_variables))
train_accuracy.update_state(labels, predictions)
return loss
def test_step(inputs):
images, labels = inputs
predictions = model(images, training=False)
t_loss = loss_object(labels, predictions)
test_loss.update_state(t_loss)
test_accuracy.update_state(labels, predictions)
# `run` replicates the provided computation and runs it
# with the distributed input.
@tf.function
def distributed_train_step(dataset_inputs):
per_replica_losses = strategy.run(train_step, args=(dataset_inputs,))
return strategy.reduce(tf.distribute.ReduceOp.SUM, per_replica_losses,
axis=None)
@tf.function
def distributed_test_step(dataset_inputs):
return strategy.run(test_step, args=(dataset_inputs,))
for epoch in range(EPOCHS):
# TRAIN LOOP
total_loss = 0.0
num_batches = 0
for x in train_dist_dataset:
total_loss += distributed_train_step(x)
num_batches += 1
train_loss = total_loss / num_batches
# TEST LOOP
for x in test_dist_dataset:
distributed_test_step(x)
if epoch % 2 == 0:
checkpoint.save(checkpoint_prefix)
template = ("Epoch {}, Loss: {}, Accuracy: {}, Test Loss: {}, "
"Test Accuracy: {}")
print (template.format(epoch+1, train_loss,
train_accuracy.result()*100, test_loss.result(),
test_accuracy.result()*100))
test_loss.reset_states()
train_accuracy.reset_states()
test_accuracy.reset_states()
Epoch 1, Loss: 0.5106383562088013, Accuracy: 81.77999877929688, Test Loss: 0.39399346709251404, Test Accuracy: 85.79000091552734 Epoch 2, Loss: 0.3362727463245392, Accuracy: 87.91333770751953, Test Loss: 0.35871225595474243, Test Accuracy: 86.7699966430664 Epoch 3, Loss: 0.2928692400455475, Accuracy: 89.2683334350586, Test Loss: 0.2999486029148102, Test Accuracy: 89.04000091552734 Epoch 4, Loss: 0.2605818510055542, Accuracy: 90.41999816894531, Test Loss: 0.28474125266075134, Test Accuracy: 89.47000122070312 Epoch 5, Loss: 0.23641237616539001, Accuracy: 91.32166290283203, Test Loss: 0.26421546936035156, Test Accuracy: 90.41000366210938 Epoch 6, Loss: 0.2192477434873581, Accuracy: 91.90499877929688, Test Loss: 0.2650589942932129, Test Accuracy: 90.4800033569336 Epoch 7, Loss: 0.20016911625862122, Accuracy: 92.66999816894531, Test Loss: 0.25025954842567444, Test Accuracy: 90.9000015258789 Epoch 8, Loss: 0.18381091952323914, Accuracy: 93.26499938964844, Test Loss: 0.2585820257663727, Test Accuracy: 90.95999908447266 Epoch 9, Loss: 0.1699329912662506, Accuracy: 93.67500305175781, Test Loss: 0.26234227418899536, Test Accuracy: 91.0199966430664 Epoch 10, Loss: 0.15756534039974213, Accuracy: 94.16333770751953, Test Loss: 0.25516414642333984, Test Accuracy: 90.93000030517578
На что следует обратить внимание в приведенном выше примере:
- Мы перебираем наборы данных
train_dist_datasetиtest_dist_dataset, используя конструкциюfor x in ... - Масштабированный убыток — это возвращаемое значение
distributed_train_step. Это значение агрегируется по репликам с помощью вызоваtf.distribute.Strategy.reduceа затем по пакетам путем суммирования возвращаемого значения вызововtf.distribute.Strategy.reduce. -
tf.keras.Metricsследует обновлять внутриtrain_stepиtest_step, которыеtf.distribute.Strategy.run. *tf.distribute.Strategy.runвозвращает результаты каждой локальной реплики в стратегии, и есть несколько способов использовать этот результат. Вы можете выполнитьtf.distribute.Strategy.reduce, чтобы получить агрегированное значение. Вы также можете выполнитьtf.distribute.Strategy.experimental_local_results, чтобы получить список значений, содержащихся в результате, по одному на локальную реплику.
Восстановите последнюю контрольную точку и проверьте
Модель, отмеченная контрольной точкой с помощью tf.distribute.Strategy , может быть восстановлена со стратегией или без нее.
eval_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
name='eval_accuracy')
new_model = create_model()
new_optimizer = tf.keras.optimizers.Adam()
test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE)
@tf.function
def eval_step(images, labels):
predictions = new_model(images, training=False)
eval_accuracy(labels, predictions)
checkpoint = tf.train.Checkpoint(optimizer=new_optimizer, model=new_model)
checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir))
for images, labels in test_dataset:
eval_step(images, labels)
print ('Accuracy after restoring the saved model without strategy: {}'.format(
eval_accuracy.result()*100))
Accuracy after restoring the saved model without strategy: 91.0199966430664
Альтернативные способы перебора набора данных
Использование итераторов
Если вы хотите выполнить итерацию по заданному количеству шагов, а не по всему набору данных, вы можете создать итератор, используя вызов iter и явный вызов next на итераторе. Вы можете перебирать набор данных как внутри, так и вне tf.function. Вот небольшой фрагмент, демонстрирующий итерацию набора данных вне tf.function с использованием итератора.
for _ in range(EPOCHS):
total_loss = 0.0
num_batches = 0
train_iter = iter(train_dist_dataset)
for _ in range(10):
total_loss += distributed_train_step(next(train_iter))
num_batches += 1
average_train_loss = total_loss / num_batches
template = ("Epoch {}, Loss: {}, Accuracy: {}")
print (template.format(epoch+1, average_train_loss, train_accuracy.result()*100))
train_accuracy.reset_states()
Epoch 10, Loss: 0.17486707866191864, Accuracy: 93.4375 Epoch 10, Loss: 0.12386945635080338, Accuracy: 95.3125 Epoch 10, Loss: 0.16411852836608887, Accuracy: 93.90625 Epoch 10, Loss: 0.10728752613067627, Accuracy: 96.40625 Epoch 10, Loss: 0.11865834891796112, Accuracy: 95.625 Epoch 10, Loss: 0.12875251471996307, Accuracy: 95.15625 Epoch 10, Loss: 0.1189488023519516, Accuracy: 95.625 Epoch 10, Loss: 0.1456708014011383, Accuracy: 95.15625 Epoch 10, Loss: 0.12446556240320206, Accuracy: 95.3125 Epoch 10, Loss: 0.1380888819694519, Accuracy: 95.46875
Итерация внутри tf.function
Вы также можете перебрать весь входной train_dist_dataset внутри tf.function, используя конструкцию for x in ... или создав итераторы, как мы сделали выше. В приведенном ниже примере демонстрируется перенос одной эпохи обучения в tf.function и итерация по train_dist_dataset внутри функции.
@tf.function
def distributed_train_epoch(dataset):
total_loss = 0.0
num_batches = 0
for x in dataset:
per_replica_losses = strategy.run(train_step, args=(x,))
total_loss += strategy.reduce(
tf.distribute.ReduceOp.SUM, per_replica_losses, axis=None)
num_batches += 1
return total_loss / tf.cast(num_batches, dtype=tf.float32)
for epoch in range(EPOCHS):
train_loss = distributed_train_epoch(train_dist_dataset)
template = ("Epoch {}, Loss: {}, Accuracy: {}")
print (template.format(epoch+1, train_loss, train_accuracy.result()*100))
train_accuracy.reset_states()
/tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/data/ops/dataset_ops.py:449: UserWarning: To make it possible to preserve tf.data options across serialization boundaries, their implementation has moved to be part of the TensorFlow graph. As a consequence, the options value is in general no longer known at graph construction time. Invoking this method in graph mode retains the legacy behavior of the original implementation, but note that the returned value might not reflect the actual value of the options.
warnings.warn("To make it possible to preserve tf.data options across "
Epoch 1, Loss: 0.14398494362831116, Accuracy: 94.63999938964844
Epoch 2, Loss: 0.13246288895606995, Accuracy: 94.97333526611328
Epoch 3, Loss: 0.11922841519117355, Accuracy: 95.63833618164062
Epoch 4, Loss: 0.11084160208702087, Accuracy: 95.99333190917969
Epoch 5, Loss: 0.10420522093772888, Accuracy: 96.0816650390625
Epoch 6, Loss: 0.09215126931667328, Accuracy: 96.63500213623047
Epoch 7, Loss: 0.0878651961684227, Accuracy: 96.67666625976562
Epoch 8, Loss: 0.07854588329792023, Accuracy: 97.09333038330078
Epoch 9, Loss: 0.07217177003622055, Accuracy: 97.34833526611328
Epoch 10, Loss: 0.06753655523061752, Accuracy: 97.48999786376953
Отслеживание потерь при обучении в репликах
Мы не рекомендуем использовать tf.metrics.Mean для отслеживания потерь при обучении в разных репликах из-за выполняемого вычисления масштабирования потерь.
Например, если вы запускаете задание обучения со следующими характеристиками:
- Две реплики
- На каждой реплике обрабатываются два образца
- Результирующие значения потерь: [2, 3] и [4, 5] на каждой реплике.
- Глобальный размер партии = 4
При масштабировании потерь вы вычисляете значение потерь для каждого образца на каждой реплике, складывая значения потерь, а затем разделяя их на глобальный размер пакета. В этом случае: (2 + 3) / 4 = 1.25 и (4 + 5) / 4 = 2.25 .
Если вы используете tf.metrics.Mean для отслеживания потерь в двух репликах, результат будет другим. В этом примере вы получаете в total 3,50 и count 2, что приводит к total количеству / count = 1,75, когда result() вызывается для метрики. Потери, рассчитанные с помощью tf.keras.Metrics , масштабируются дополнительным коэффициентом, равным количеству синхронизированных реплик.
Руководство и примеры
Вот несколько примеров использования стратегии распределения с пользовательскими циклами обучения:
- Распределенное руководство по обучению
- Пример DenseNet с использованием
MirroredStrategy. - Пример BERT , обученный с использованием
MirroredStrategyиTPUStrategy. Этот пример особенно полезен для понимания того, как выполнять загрузку с контрольной точки и создавать периодические контрольные точки во время распределенного обучения и т. д. - Пример NCF , обученный с использованием
MirroredStrategy, который можно включить с помощью флагаkeras_use_ctl. - Пример NMT, обученный с помощью
MirroredStrategy.
Дополнительные примеры перечислены в руководстве по стратегии распределения .
Следующие шаги
- Попробуйте новый API
tf.distribute.Strategyна своих моделях. - Посетите раздел « Производительность» в руководстве, чтобы узнать больше о других стратегиях и инструментах , которые вы можете использовать для оптимизации производительности ваших моделей TensorFlow.
Посмотреть на TensorFlow.org
Запустить в Google Colab
Посмотреть исходный код на GitHub
Скачать блокнот