TensorFlow.org এ দেখুন | Google Colab-এ চালান | GitHub-এ উৎস দেখুন | নোটবুক ডাউনলোড করুন |
ওভারভিউ
এই টিউটোরিয়ালটি দেখায় কিভাবে একটি Keras মডেল এবং Model.fit API-এর সাথে tf.distribute.Strategy API-বিশেষ করে tf.distribute.MultiWorkerMirroredStrategy ক্লাস ব্যবহার করে মাল্টি-ওয়ার্কার বিতরণ করা প্রশিক্ষণ। এই কৌশলটির সাহায্যে, একটি কেরাস মডেল যা একক-শ্রমিকের উপর চালানোর জন্য ডিজাইন করা হয়েছিল, ন্যূনতম কোড পরিবর্তন সহ একাধিক কর্মীদের উপর নির্বিঘ্নে কাজ করতে পারে।
যারা tf.distribute.Strategy APIs সম্পর্কে গভীরভাবে বুঝতে আগ্রহী তাদের জন্য, TensorFlow সমর্থন করে এমন বিতরণ কৌশলগুলির একটি ওভারভিউয়ের জন্য TensorFlow গাইডে বিতরণ করা প্রশিক্ষণ উপলব্ধ।
Keras এবং একটি কাস্টম প্রশিক্ষণ লুপের সাথে MultiWorkerMirroredStrategy কীভাবে ব্যবহার করবেন তা শিখতে, Keras এবং MultiWorkerMirroredStrategy সহ কাস্টম প্রশিক্ষণ লুপ পড়ুন।
মনে রাখবেন যে এই টিউটোরিয়ালটির উদ্দেশ্য হল দুটি কর্মী সহ একটি ন্যূনতম বহু-কর্মী উদাহরণ প্রদর্শন করা।
সেটআপ
কিছু প্রয়োজনীয় আমদানি দিয়ে শুরু করুন:
import json
import os
import sys
TensorFlow আমদানি করার আগে, পরিবেশে কিছু পরিবর্তন করুন:
- সমস্ত GPU নিষ্ক্রিয় করুন। এটি একই GPU ব্যবহার করার চেষ্টাকারী কর্মীদের দ্বারা সৃষ্ট ত্রুটিগুলিকে প্রতিরোধ করে৷ একটি বাস্তব-বিশ্বের অ্যাপ্লিকেশনে, প্রতিটি কর্মী আলাদা মেশিনে থাকবে।
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
-
TF_CONFIGএনভায়রনমেন্ট ভেরিয়েবল রিসেট করুন (আপনি এই সম্পর্কে পরে আরও জানবেন):
os.environ.pop('TF_CONFIG', None)
- নিশ্চিত করুন যে বর্তমান ডিরেক্টরিটি পাইথনের পথে রয়েছে—এটি নোটবুককে পরে
%%writefileদ্বারা লেখা ফাইলগুলি আমদানি করতে দেয়:
if '.' not in sys.path:
sys.path.insert(0, '.')
এখন TensorFlow আমদানি করুন:
import tensorflow as tf
ডেটাসেট এবং মডেল সংজ্ঞা
এরপরে, একটি সাধারণ মডেল এবং ডেটাসেট সেটআপ সহ একটি mnist_setup.py ফাইল তৈরি করুন। এই টিউটোরিয়ালে এই পাইথন ফাইলটি কর্মী প্রসেস দ্বারা ব্যবহার করা হবে:
%%writefile mnist_setup.py
import os
import tensorflow as tf
import numpy as np
def mnist_dataset(batch_size):
(x_train, y_train), _ = tf.keras.datasets.mnist.load_data()
# The `x` arrays are in uint8 and have values in the [0, 255] range.
# You need to convert them to float32 with values in the [0, 1] range.
x_train = x_train / np.float32(255)
y_train = y_train.astype(np.int64)
train_dataset = tf.data.Dataset.from_tensor_slices(
(x_train, y_train)).shuffle(60000).repeat().batch(batch_size)
return train_dataset
def build_and_compile_cnn_model():
model = tf.keras.Sequential([
tf.keras.layers.InputLayer(input_shape=(28, 28)),
tf.keras.layers.Reshape(target_shape=(28, 28, 1)),
tf.keras.layers.Conv2D(32, 3, activation='relu'),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(10)
])
model.compile(
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
optimizer=tf.keras.optimizers.SGD(learning_rate=0.001),
metrics=['accuracy'])
return model
Writing mnist_setup.py
একক কর্মীর উপর মডেল প্রশিক্ষণ
অল্প সংখ্যক যুগের জন্য মডেলটি প্রশিক্ষণের চেষ্টা করুন এবং সবকিছু সঠিকভাবে কাজ করছে তা নিশ্চিত করতে একজন একক কর্মীর ফলাফল পর্যবেক্ষণ করুন। প্রশিক্ষণের অগ্রগতির সাথে সাথে ক্ষতি হ্রাস করা উচিত এবং নির্ভুলতা বৃদ্ধি করা উচিত।
import mnist_setup
batch_size = 64
single_worker_dataset = mnist_setup.mnist_dataset(batch_size)
single_worker_model = mnist_setup.build_and_compile_cnn_model()
single_worker_model.fit(single_worker_dataset, epochs=3, steps_per_epoch=70)
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz 11493376/11490434 [==============================] - 0s 0us/step 11501568/11490434 [==============================] - 0s 0us/step 2022-02-05 02:20:59.945141: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected Epoch 1/3 70/70 [==============================] - 1s 12ms/step - loss: 2.2839 - accuracy: 0.1788 Epoch 2/3 70/70 [==============================] - 1s 12ms/step - loss: 2.2492 - accuracy: 0.3185 Epoch 3/3 70/70 [==============================] - 1s 12ms/step - loss: 2.2012 - accuracy: 0.4795 <keras.callbacks.History at 0x7f666a2e4510>
মাল্টি-কর্মী কনফিগারেশন
এখন মাল্টি-কর্মী প্রশিক্ষণের জগতে প্রবেশ করা যাক।
কাজ এবং কাজ সহ একটি ক্লাস্টার
TensorFlow-এ, বিতরণ করা প্রশিক্ষণের মধ্যে রয়েছে: একটি 'cluster' যার বেশ কয়েকটি কাজ রয়েছে এবং প্রতিটি কাজের এক বা একাধিক 'task' থাকতে পারে।
একাধিক মেশিনে প্রশিক্ষণের জন্য আপনার TF_CONFIG কনফিগারেশন এনভায়রনমেন্ট ভেরিয়েবলের প্রয়োজন হবে, যার প্রতিটির একটি আলাদা ভূমিকা থাকতে পারে। TF_CONFIG হল একটি JSON স্ট্রিং যা ক্লাস্টারের অংশ এমন প্রতিটি কর্মীর জন্য ক্লাস্টার কনফিগারেশন নির্দিষ্ট করতে ব্যবহৃত হয়।
একটি TF_CONFIG ভেরিয়েবলের দুটি উপাদান রয়েছে: 'cluster' এবং 'task' ।
একটি
'cluster'সমস্ত কর্মীদের জন্য একই এবং প্রশিক্ষণ ক্লাস্টার সম্পর্কে তথ্য প্রদান করে, যা'worker'বা'chief'এর মতো বিভিন্ন ধরণের কাজের সমন্বয়ে একটি নির্দেশনা।-
tf.distribute.MultiWorkerMirroredStrategyএর সাথে বহু-কর্মী প্রশিক্ষণে, সাধারণত একজন'worker'থাকে যে দায়িত্ব নেয়, যেমন একটি চেকপয়েন্ট সংরক্ষণ করা এবং টেনসরবোর্ডের জন্য একটি সারসংক্ষেপ ফাইল লেখা, একজন নিয়মিত'worker'যা করে তা ছাড়াও। এই ধরনের'worker'প্রধান কর্মী হিসাবে উল্লেখ করা হয় (একটি কাজের নাম'chief'সহ)। -
'chief'প্রধান'-এর জন্য'index'0নিযুক্ত করা প্রথাগত (আসলে, এইভাবেtf.distribute.Strategy.কৌশল প্রয়োগ করা হয়)।
-
একটি
'task'বর্তমান কাজের তথ্য প্রদান করে এবং প্রতিটি কর্মীর জন্য আলাদা। এটি সেই কর্মীর'type'এবং'index'নির্দিষ্ট করে।
নীচে একটি উদাহরণ কনফিগারেশন:
tf_config = {
'cluster': {
'worker': ['localhost:12345', 'localhost:23456']
},
'task': {'type': 'worker', 'index': 0}
}
এখানে একটি JSON স্ট্রিং হিসাবে একই TF_CONFIG সিরিয়াল করা হয়েছে:
json.dumps(tf_config)
'{"cluster": {"worker": ["localhost:12345", "localhost:23456"]}, "task": {"type": "worker", "index": 0} }'
মনে রাখবেন যে tf_config পাইথনের একটি স্থানীয় পরিবর্তনশীল। একটি প্রশিক্ষণ কনফিগারেশনের জন্য এটি ব্যবহার করতে সক্ষম হওয়ার জন্য, এই ডিক্টটিকে একটি JSON হিসাবে সিরিয়াল করা দরকার এবং একটি TF_CONFIG পরিবেশ পরিবর্তনশীলে স্থাপন করা দরকার।
উপরের উদাহরণের কনফিগারেশনে, আপনি টাস্ক 'type' কে 'worker' এবং টাস্ক 'index' 0 এ সেট করেছেন। অতএব, এই মেশিন প্রথম কর্মী. এটি 'chief' কর্মী হিসেবে নিয়োগ পাবে এবং অন্যদের চেয়ে বেশি কাজ করবে।
দৃষ্টান্তের উদ্দেশ্যে, এই টিউটোরিয়ালটি দেখায় কিভাবে আপনি একটি localhost দুইজন শ্রমিকের সাথে একটি TF_CONFIG ভেরিয়েবল সেট আপ করতে পারেন।
অনুশীলনে, আপনি বাহ্যিক আইপি ঠিকানা/পোর্টে একাধিক কর্মী তৈরি করবেন এবং সেই অনুযায়ী প্রতিটি কর্মীর জন্য একটি TF_CONFIG ভেরিয়েবল সেট করবেন।
এই টিউটোরিয়ালে, আপনি দুটি কর্মী ব্যবহার করবেন:
- প্রথম (
'chief') কর্মীরTF_CONFIGউপরে দেখানো হয়েছে। - দ্বিতীয় কর্মীর জন্য, আপনি
tf_config['task']['index']=1সেট করবেন
নোটবুকগুলিতে পরিবেশের পরিবর্তনশীল এবং সাবপ্রসেস
সাবপ্রসেসগুলি তাদের পিতামাতার কাছ থেকে এনভায়রনমেন্ট ভেরিয়েবলের উত্তরাধিকারী হয়।
উদাহরণস্বরূপ, আপনি এই জুপিটার নোটবুক প্রক্রিয়ায় একটি পরিবেশ পরিবর্তনশীল সেট করতে পারেন:
os.environ['GREETINGS'] = 'Hello TensorFlow!'
তারপর, আপনি একটি সাবপ্রসেস থেকে পরিবেশ পরিবর্তনশীল অ্যাক্সেস করতে পারেন:
echo ${GREETINGS}
Hello TensorFlow!
পরবর্তী বিভাগে, আপনি কর্মী সাবপ্রসেসে TF_CONFIG পাস করার জন্য একটি অনুরূপ পদ্ধতি ব্যবহার করবেন। একটি বাস্তব-বিশ্বের পরিস্থিতিতে, আপনি এইভাবে আপনার কাজগুলি চালু করবেন না, তবে এই উদাহরণে এটি যথেষ্ট।
সঠিক কৌশল বেছে নিন
টেনসরফ্লোতে, বিতরণ করা প্রশিক্ষণের দুটি প্রধান রূপ রয়েছে:
- সিঙ্ক্রোনাস ট্রেনিং , যেখানে প্রশিক্ষণের ধাপগুলি কর্মীদের এবং প্রতিলিপিগুলি জুড়ে সিঙ্ক করা হয়, এবং
- অ্যাসিঙ্ক্রোনাস প্রশিক্ষণ , যেখানে প্রশিক্ষণের ধাপগুলি কঠোরভাবে সিঙ্ক করা হয় না (উদাহরণস্বরূপ, প্যারামিটার সার্ভার প্রশিক্ষণ )।
এই টিউটোরিয়ালটি দেখায় কিভাবে tf.distribute.MultiWorkerMirroredStrategy এর একটি উদাহরণ ব্যবহার করে সিঙ্ক্রোনাস মাল্টি-ওয়ার্কার প্রশিক্ষণ সম্পাদন করতে হয়।
MultiWorkerMirroredStrategy সমস্ত কর্মী জুড়ে প্রতিটি ডিভাইসে মডেলের স্তরগুলিতে সমস্ত ভেরিয়েবলের কপি তৈরি করে। এটি CollectiveOps ব্যবহার করে, সমষ্টিগত যোগাযোগের জন্য একটি TensorFlow অপ, গ্রেডিয়েন্টগুলিকে একত্রিত করতে এবং ভেরিয়েবলগুলিকে সিঙ্কে রাখতে। tf.distribute.Strategy এই কৌশল সম্পর্কে আরও বিশদ রয়েছে।
strategy = tf.distribute.MultiWorkerMirroredStrategy()
WARNING:tensorflow:Collective ops is not configured at program startup. Some performance features may not be enabled.
INFO:tensorflow:Single-worker MultiWorkerMirroredStrategy with local_devices = ('/device:CPU:0',), communication = CommunicationImplementation.AUTO
MultiWorkerMirroredStrategy tf.distribute.experimental.CommunicationOptions প্যারামিটারের মাধ্যমে একাধিক বাস্তবায়ন প্রদান করে: 1) RING ক্রস-হোস্ট কমিউনিকেশন লেয়ার হিসাবে gRPC ব্যবহার করে রিং-ভিত্তিক সমষ্টি প্রয়োগ করে; 2) NCCL যৌথ বাস্তবায়নের জন্য NVIDIA কালেক্টিভ কমিউনিকেশন লাইব্রেরি ব্যবহার করে; এবং 3) স্বয়ংক্রিয় AUTO পছন্দকে পিছিয়ে দেয়। যৌথ বাস্তবায়নের সর্বোত্তম পছন্দ নির্ভর করে GPU-এর সংখ্যা এবং প্রকারের উপর এবং ক্লাস্টারে নেটওয়ার্ক আন্তঃসংযোগ।
মডেলকে প্রশিক্ষণ দিন
tf.keras এ tf.distribute.Strategy API-এর একীকরণের সাথে, আপনি একাধিক-কর্মীদের প্রশিক্ষণ বিতরণ করার জন্য একমাত্র পরিবর্তন করতে পারবেন তা হল মডেল বিল্ডিং এবং model.compile() কলের ভিতরে strategy.scope() । বন্টন কৌশলের সুযোগ নির্দেশ করে কিভাবে এবং কোথায় ভেরিয়েবল তৈরি করা হয়, এবং MultiWorkerMirroredStrategy এর ক্ষেত্রে, তৈরি করা ভেরিয়েবলগুলি হল MirroredVariable s, এবং সেগুলি প্রতিটি শ্রমিকের উপর প্রতিলিপি করা হয়।
with strategy.scope():
# Model building/compiling need to be within `strategy.scope()`.
multi_worker_model = mnist_setup.build_and_compile_cnn_model()
আসলে MultiWorkerMirroredStrategy সাথে চালানোর জন্য আপনাকে কর্মী প্রক্রিয়া চালাতে হবে এবং তাদের কাছে একটি TF_CONFIG হবে।
আগে লেখা mnist_setup.py ফাইলের মতো, এখানে main.py যেটি প্রতিটি কর্মী চলবে:
%%writefile main.py
import os
import json
import tensorflow as tf
import mnist_setup
per_worker_batch_size = 64
tf_config = json.loads(os.environ['TF_CONFIG'])
num_workers = len(tf_config['cluster']['worker'])
strategy = tf.distribute.MultiWorkerMirroredStrategy()
global_batch_size = per_worker_batch_size * num_workers
multi_worker_dataset = mnist_setup.mnist_dataset(global_batch_size)
with strategy.scope():
# Model building/compiling need to be within `strategy.scope()`.
multi_worker_model = mnist_setup.build_and_compile_cnn_model()
multi_worker_model.fit(multi_worker_dataset, epochs=3, steps_per_epoch=70)
Writing main.py
উপরের কোড স্নিপেটে লক্ষ্য করুন যে global_batch_size , যা Dataset.batch-এ পাস করা হয়, Dataset.batch per_worker_batch_size * num_workers সেট করা হয়। এটি নিশ্চিত করে যে প্রতিটি কর্মী কর্মীদের সংখ্যা নির্বিশেষে per_worker_batch_size উদাহরণগুলির ব্যাচ প্রক্রিয়া করে।
বর্তমান ডিরেক্টরিতে এখন উভয় পাইথন ফাইল রয়েছে:
ls *.py
main.py mnist_setup.py
তাই TF_CONFIG-কে TF_CONFIG ক্রমিক করুন এবং পরিবেশের ভেরিয়েবলে যোগ করুন:
os.environ['TF_CONFIG'] = json.dumps(tf_config)
এখন, আপনি একটি কর্মী প্রক্রিয়া চালু করতে পারেন যা TF_CONFIG চালাবে এবং main.py ব্যবহার করবে:
# first kill any previous runs
%killbgscripts
All background processes were killed.
python main.py &> job_0.log
উপরের কমান্ড সম্পর্কে নোট করার জন্য কয়েকটি জিনিস রয়েছে:
- এটি
%%bashব্যবহার করে যা কিছু ব্যাশ কমান্ড চালানোর জন্য একটি নোটবুক "জাদু" । - এটি ব্যাকগ্রাউন্ডে
bashপ্রক্রিয়া চালানোর জন্য--bgপতাকা ব্যবহার করে, কারণ এই কর্মী শেষ হবে না। এটি শুরু হওয়ার আগে সমস্ত কর্মীদের জন্য অপেক্ষা করে।
ব্যাকগ্রাউন্ডেড ওয়ার্কার প্রসেস এই নোটবুকে আউটপুট প্রিন্ট করবে না, তাই &> তার আউটপুটকে একটি ফাইলে রিডাইরেক্ট করে যাতে আপনি পরে একটি লগ ফাইলে কি ঘটেছে তা পরিদর্শন করতে পারেন।
সুতরাং, প্রক্রিয়াটি শুরু হওয়ার জন্য কয়েক সেকেন্ড অপেক্ষা করুন:
import time
time.sleep(10)
এখন, এখন পর্যন্ত কর্মীর লগ ফাইলে কী আউটপুট হয়েছে তা পরিদর্শন করুন:
cat job_0.log
2022-02-05 02:21:06.348503: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
লগ ফাইলের শেষ লাইনে বলা উচিত: Started server with target: grpc://localhost:12345 । প্রথম কর্মী এখন প্রস্তুত, এবং অন্য সমস্ত কর্মী(গুলি) এগিয়ে যাওয়ার জন্য প্রস্তুত হওয়ার জন্য অপেক্ষা করছে৷
সুতরাং দ্বিতীয় কর্মীর প্রক্রিয়া বাছাই করার জন্য tf_config আপডেট করুন:
tf_config['task']['index'] = 1
os.environ['TF_CONFIG'] = json.dumps(tf_config)
দ্বিতীয় কর্মী চালু করুন। এটি প্রশিক্ষণ শুরু করবে যেহেতু সমস্ত কর্মী সক্রিয় রয়েছে (তাই এই প্রক্রিয়াটির ব্যাকগ্রাউন্ড করার দরকার নেই):
python main.py
Epoch 1/3
70/70 [==============================] - 6s 51ms/step - loss: 2.2766 - accuracy: 0.1722
Epoch 2/3
70/70 [==============================] - 3s 48ms/step - loss: 2.2172 - accuracy: 0.4157
Epoch 3/3
70/70 [==============================] - 3s 49ms/step - loss: 2.1471 - accuracy: 0.5901
2022-02-05 02:21:16.367945: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
2022-02-05 02:21:17.234030: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_INT64
}
}
}
attr {
key: "_cardinality"
value {
i: 60000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:0"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
}
2022-02-05 02:21:17.450972: W tensorflow/core/framework/dataset.cc:768] Input of GeneratorDatasetOp::Dataset will not be optimized because the dataset does not implement the AsGraphDefInternal() method needed to apply optimizations.
আপনি যদি প্রথম কর্মী দ্বারা লিখিত লগগুলি পুনরায় পরীক্ষা করেন, আপনি শিখবেন যে এটি সেই মডেলের প্রশিক্ষণে অংশগ্রহণ করেছিল:
cat job_0.log
2022-02-05 02:21:06.348503: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
2022-02-05 02:21:17.232316: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_INT64
}
}
}
attr {
key: "_cardinality"
value {
i: 60000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:0"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
}
2022-02-05 02:21:17.457812: W tensorflow/core/framework/dataset.cc:768] Input of GeneratorDatasetOp::Dataset will not be optimized because the dataset does not implement the AsGraphDefInternal() method needed to apply optimizations.
Epoch 1/3
70/70 [==============================] - 6s 51ms/step - loss: 2.2766 - accuracy: 0.1722
Epoch 2/3
70/70 [==============================] - 3s 48ms/step - loss: 2.2172 - accuracy: 0.4157
Epoch 3/3
70/70 [==============================] - 3s 49ms/step - loss: 2.1471 - accuracy: 0.5901
আশ্চর্যজনকভাবে, এই টিউটোরিয়ালের শুরুতে পরীক্ষা চালানোর চেয়ে এটি ধীরগতিতে চলেছিল।
একটি একক মেশিনে একাধিক কর্মী চালানো শুধুমাত্র ওভারহেড যোগ করে।
এখানে লক্ষ্য ছিল প্রশিক্ষণের সময় উন্নত করা নয়, শুধুমাত্র বহু-কর্মী প্রশিক্ষণের একটি উদাহরণ দেওয়া।
# Delete the `TF_CONFIG`, and kill any background tasks so they don't affect the next section.
os.environ.pop('TF_CONFIG', None)
%killbgscripts
All background processes were killed.
গভীরভাবে বহু-কর্মী প্রশিক্ষণ
এখন পর্যন্ত, আপনি শিখেছেন কিভাবে একটি মৌলিক মাল্টি-ওয়ার্কার সেটআপ করতে হয়।
টিউটোরিয়ালের বাকি সময়, আপনি অন্যান্য বিষয় সম্পর্কে বিস্তারিতভাবে শিখবেন, যা বাস্তব ব্যবহারের ক্ষেত্রে কার্যকর বা গুরুত্বপূর্ণ হতে পারে।
ডেটাসেট শর্ডিং
মাল্টি-ওয়ার্কার ট্রেনিং-এ, কনভারজেন্স এবং পারফরম্যান্স নিশ্চিত করতে ডেটাসেট শার্ডিং প্রয়োজন।
পূর্ববর্তী বিভাগে উদাহরণটি tf.distribute.Strategy API দ্বারা প্রদত্ত ডিফল্ট অটোশার্ডিংয়ের উপর নির্ভর করে। আপনি tf.data.experimental.DistributeOptions-এর tf.data.experimental.DistributeOptions সেট করে tf.data.experimental.AutoShardPolicy নিয়ন্ত্রণ করতে পারেন।
স্বয়ংক্রিয়-শার্ডিং সম্পর্কে আরও জানতে, ডিস্ট্রিবিউটেড ইনপুট গাইড পড়ুন।
কিভাবে স্বয়ংক্রিয় শার্ডিং বন্ধ করতে হয় তার একটি দ্রুত উদাহরণ এখানে দেওয়া হল, যাতে প্রতিটি প্রতিলিপি প্রতিটি উদাহরণ প্রক্রিয়া করে ( প্রস্তাবিত নয় ):
options = tf.data.Options()
options.experimental_distribute.auto_shard_policy = tf.data.experimental.AutoShardPolicy.OFF
global_batch_size = 64
multi_worker_dataset = mnist_setup.mnist_dataset(batch_size=64)
dataset_no_auto_shard = multi_worker_dataset.with_options(options)
মূল্যায়ন
আপনি যদি Model.fit এ validation_data পাস করেন, তাহলে এটি প্রতিটি যুগের জন্য প্রশিক্ষণ এবং মূল্যায়নের মধ্যে বিকল্প হবে। validation_data গ্রহণের মূল্যায়ন একই কর্মীদের মধ্যে বিতরণ করা হয় এবং মূল্যায়নের ফলাফলগুলি একত্রিত এবং সমস্ত কর্মীদের জন্য উপলব্ধ।
প্রশিক্ষণের অনুরূপ, বৈধতা ডেটাসেট ফাইল স্তরে স্বয়ংক্রিয়ভাবে শার্ড হয়। আপনাকে বৈধতা ডেটাসেটে একটি বিশ্বব্যাপী ব্যাচের আকার সেট করতে হবে এবং validation_steps সেট করতে হবে।
একটি পুনরাবৃত্ত ডেটাসেট মূল্যায়নের জন্যও সুপারিশ করা হয়।
বিকল্পভাবে, আপনি অন্য একটি টাস্কও তৈরি করতে পারেন যা পর্যায়ক্রমে চেকপয়েন্ট পড়ে এবং মূল্যায়ন চালায়। এটিই এস্টিমেটর করে। কিন্তু এটি মূল্যায়ন করার জন্য একটি প্রস্তাবিত উপায় নয় এবং এইভাবে এর বিবরণ বাদ দেওয়া হয়েছে।
কর্মক্ষমতা
আপনার কাছে এখন একটি কেরাস মডেল রয়েছে যা MultiWorkerMirroredStrategy সহ একাধিক কর্মীদের মধ্যে চালানোর জন্য সেট আপ করা হয়েছে।
বহু-কর্মী প্রশিক্ষণের কর্মক্ষমতা পরিবর্তন করতে, আপনি নিম্নলিখিতগুলি চেষ্টা করতে পারেন:
tf.distribute.MultiWorkerMirroredStrategyএকাধিক যৌথ যোগাযোগ বাস্তবায়ন প্রদান করে:-
RINGক্রস-হোস্ট কমিউনিকেশন লেয়ার হিসেবে gRPC ব্যবহার করে রিং-ভিত্তিক সমষ্টি প্রয়োগ করে। -
NCCLযৌথ বাস্তবায়নের জন্য NVIDIA কালেক্টিভ কমিউনিকেশন লাইব্রেরি ব্যবহার করে। -
AUTOরানটাইমের পছন্দকে পিছিয়ে দেয়।
যৌথ বাস্তবায়নের সর্বোত্তম পছন্দ নির্ভর করে GPU এর সংখ্যা, GPU-এর ধরন এবং ক্লাস্টারে নেটওয়ার্ক ইন্টারকানেক্টের উপর। স্বয়ংক্রিয় পছন্দ ওভাররাইড করতে,
MultiWorkerMirroredStrategyএর কন্সট্রাক্টরেরcommunication_optionsপ্যারামিটার নির্দিষ্ট করুন। উদাহরণ স্বরূপ:communication_options=tf.distribute.experimental.CommunicationOptions(implementation=tf.distribute.experimental.CollectiveCommunication.NCCL)-
যদি সম্ভব হয়
tf.floatএ ভেরিয়েবল কাস্ট করুন:- অফিসিয়াল ResNet মডেল এটি কিভাবে করা যেতে পারে তার একটি উদাহরণ অন্তর্ভুক্ত করে।
দোষ সহনশীলতা
সিঙ্ক্রোনাস প্রশিক্ষণে, ক্লাস্টার ব্যর্থ হবে যদি একজন কর্মী ব্যর্থ হয় এবং কোনো ব্যর্থতা-পুনরুদ্ধারের ব্যবস্থা বিদ্যমান না থাকে।
tf.distribute.Strategy এর সাথে tf.distribute.Strategy ব্যবহার করলে শ্রমিকরা মারা যায় বা অন্যথায় অস্থির হয় এমন ক্ষেত্রে দোষ সহনশীলতার সুবিধা নিয়ে আসে। আপনি আপনার পছন্দের ডিস্ট্রিবিউটেড ফাইল সিস্টেমে প্রশিক্ষণের অবস্থা সংরক্ষণ করে এটি করতে পারেন, যেমন পূর্বে ব্যর্থ বা প্রিম্পট করা উদাহরণটি পুনরায় চালু করার পরে, প্রশিক্ষণের অবস্থা পুনরুদ্ধার করা হয়।
যখন একজন কর্মী অনুপলব্ধ হয়ে যায়, তখন অন্যান্য কর্মীরা ব্যর্থ হবে (সম্ভবত সময় শেষ হওয়ার পরে)। এই ধরনের ক্ষেত্রে, অনুপলব্ধ কর্মীকে পুনরায় চালু করতে হবে, সেইসাথে অন্যান্য কর্মী যারা ব্যর্থ হয়েছে।
মডেলচেকপয়েন্ট কলব্যাক
ModelCheckpoint কলব্যাক আর দোষ সহনশীলতা কার্যকারিতা প্রদান করে না, দয়া করে পরিবর্তে BackupAndRestore কলব্যাক ব্যবহার করুন।
ModelCheckpoint কলব্যাক এখনও চেকপয়েন্ট সংরক্ষণ করতে ব্যবহার করা যেতে পারে। তবে এর সাথে, যদি প্রশিক্ষণ বাধাগ্রস্ত হয় বা সফলভাবে শেষ হয়, চেকপয়েন্ট থেকে প্রশিক্ষণ চালিয়ে যাওয়ার জন্য, ব্যবহারকারী নিজেই মডেলটি লোড করার জন্য দায়ী।
ঐচ্ছিকভাবে ব্যবহারকারী ModelCheckpoint কলব্যাকের বাইরে মডেল/ওজন সংরক্ষণ এবং পুনরুদ্ধার করতে বেছে নিতে পারেন।
মডেল সংরক্ষণ এবং লোড হচ্ছে
model.save বা tf.saved_model.save ব্যবহার করে আপনার মডেল সংরক্ষণ করতে, সংরক্ষণের গন্তব্য প্রতিটি কর্মীর জন্য আলাদা হতে হবে।
- অ-প্রধান কর্মীদের জন্য, আপনাকে মডেলটিকে একটি অস্থায়ী ডিরেক্টরিতে সংরক্ষণ করতে হবে।
- প্রধানের জন্য, আপনাকে প্রদত্ত মডেল ডিরেক্টরিতে সংরক্ষণ করতে হবে।
একাধিক কর্মী একই অবস্থানে লেখার চেষ্টা করার ফলে ত্রুটিগুলি প্রতিরোধ করতে কর্মীর অস্থায়ী ডিরেক্টরিগুলি অনন্য হতে হবে।
সমস্ত ডিরেক্টরিতে সংরক্ষিত মডেলটি অভিন্ন, এবং সাধারণত শুধুমাত্র প্রধান দ্বারা সংরক্ষিত মডেলটি পুনরুদ্ধার বা পরিবেশনের জন্য উল্লেখ করা উচিত।
আপনার কিছু ক্লিনআপ যুক্তি থাকা উচিত যা আপনার প্রশিক্ষণ শেষ হয়ে গেলে কর্মীদের দ্বারা তৈরি অস্থায়ী ডিরেক্টরিগুলি মুছে দেয়।
একই সময়ে প্রধান এবং কর্মীদের সংরক্ষণ করার কারণ হল আপনি চেকপয়েন্টিংয়ের সময় ভেরিয়েবলগুলিকে একত্রিত করতে পারেন যার জন্য প্রধান এবং কর্মীদের উভয়েরই কমিউনিকেশন প্রোটোকল কমিউনিকেশনে অংশগ্রহণ করতে হবে। অন্যদিকে, প্রধান এবং কর্মীদের একই মডেল ডিরেক্টরিতে সংরক্ষণ করতে দিলে বিতর্কের কারণে ত্রুটি দেখা দেবে।
MultiWorkerMirroredStrategy ব্যবহার করে, প্রোগ্রামটি প্রতিটি কর্মীর উপর চালিত হয়, এবং বর্তমান কর্মী প্রধান কিনা তা জানার জন্য, এটি ক্লাস্টার সমাধানকারী অবজেক্টের সুবিধা গ্রহণ করে যার বৈশিষ্ট্য রয়েছে task_type এবং task_id :
-
task_typeআপনাকে বলে বর্তমান কাজ কি (যেমন'worker')। -
task_idআপনাকে কর্মীর সনাক্তকারী বলে। -
task_id == 0সহ কর্মীকে প্রধান কর্মী হিসাবে মনোনীত করা হয়েছে।
নীচের কোড স্নিপেটে, write_filepath ফাংশন লেখার জন্য ফাইল পাথ প্রদান করে, যা শ্রমিকের task_id এর উপর নির্ভর করে:
- প্রধান কর্মীর জন্য (
task_id == 0সহ), এটি মূল ফাইল পাথে লেখে। - অন্যান্য কর্মীদের জন্য, এটি একটি অস্থায়ী ডিরেক্টরি তৈরি করে —
temp_dir— যাতে লেখার জন্য ডিরেক্টরি পাথেtask_idথাকে:
model_path = '/tmp/keras-model'
def _is_chief(task_type, task_id):
# Note: there are two possible `TF_CONFIG` configuration.
# 1) In addition to `worker` tasks, a `chief` task type is use;
# in this case, this function should be modified to
# `return task_type == 'chief'`.
# 2) Only `worker` task type is used; in this case, worker 0 is
# regarded as the chief. The implementation demonstrated here
# is for this case.
# For the purpose of this Colab section, the `task_type is None` case
# is added because it is effectively run with only a single worker.
return (task_type == 'worker' and task_id == 0) or task_type is None
def _get_temp_dir(dirpath, task_id):
base_dirpath = 'workertemp_' + str(task_id)
temp_dir = os.path.join(dirpath, base_dirpath)
tf.io.gfile.makedirs(temp_dir)
return temp_dir
def write_filepath(filepath, task_type, task_id):
dirpath = os.path.dirname(filepath)
base = os.path.basename(filepath)
if not _is_chief(task_type, task_id):
dirpath = _get_temp_dir(dirpath, task_id)
return os.path.join(dirpath, base)
task_type, task_id = (strategy.cluster_resolver.task_type,
strategy.cluster_resolver.task_id)
write_model_path = write_filepath(model_path, task_type, task_id)
এর সাথে, আপনি এখন সংরক্ষণ করতে প্রস্তুত:
multi_worker_model.save(write_model_path)
2022-02-05 02:21:31.809502: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them. INFO:tensorflow:Assets written to: /tmp/keras-model/assets INFO:tensorflow:Assets written to: /tmp/keras-model/assets
উপরে বর্ণিত হিসাবে, পরবর্তীতে মডেলটি শুধুমাত্র পাথ প্রধান থেকে লোড করা উচিত যাতে সংরক্ষিত হয়, তাই চলুন অপ্রধান কর্মীরা সংরক্ষিত অস্থায়ীকে সরিয়ে ফেলি:
if not _is_chief(task_type, task_id):
tf.io.gfile.rmtree(os.path.dirname(write_model_path))
এখন, যখন লোড করার সময়, আসুন সুবিধাজনক tf.keras.models.load_model API ব্যবহার করি এবং পরবর্তী কাজ চালিয়ে যাই।
এখানে, অনুমান করুন শুধুমাত্র একক কর্মী ব্যবহার করে প্রশিক্ষণ লোড করতে এবং চালিয়ে যেতে, সেক্ষেত্রে আপনি tf.keras.models.load_model কে অন্য কোনো strategy.scope() এর মধ্যে কল করবেন না (মনে রাখবেন যে strategy = tf.distribute.MultiWorkerMirroredStrategy() , যেমনটি আগে সংজ্ঞায়িত করা হয়েছে ):
loaded_model = tf.keras.models.load_model(model_path)
# Now that the model is restored, and can continue with the training.
loaded_model.fit(single_worker_dataset, epochs=2, steps_per_epoch=20)
Epoch 1/2 20/20 [==============================] - 1s 12ms/step - loss: 2.2949 - accuracy: 0.0492 Epoch 2/2 20/20 [==============================] - 0s 13ms/step - loss: 2.2680 - accuracy: 0.0773 <keras.callbacks.History at 0x7f6669989750>
চেকপয়েন্ট সংরক্ষণ এবং পুনঃস্থাপন
অন্যদিকে, চেকপয়েন্টিং আপনাকে আপনার মডেলের ওজন সংরক্ষণ করতে এবং পুরো মডেলটিকে সংরক্ষণ না করেই সেগুলি পুনরুদ্ধার করতে দেয়।
এখানে, আপনি একটি tf.train.Checkpoint তৈরি করবেন যা মডেলটিকে ট্র্যাক করে, যা tf.train.CheckpointManager দ্বারা পরিচালিত হয়, যাতে শুধুমাত্র সর্বশেষ চেকপয়েন্টটি সংরক্ষিত থাকে:
checkpoint_dir = '/tmp/ckpt'
checkpoint = tf.train.Checkpoint(model=multi_worker_model)
write_checkpoint_dir = write_filepath(checkpoint_dir, task_type, task_id)
checkpoint_manager = tf.train.CheckpointManager(
checkpoint, directory=write_checkpoint_dir, max_to_keep=1)
একবার CheckpointManager সেট আপ হয়ে গেলে, আপনি এখন অ-প্রধান কর্মীরা যে চেকপয়েন্টগুলি সংরক্ষণ করেছিলেন সেগুলি সংরক্ষণ এবং সরাতে প্রস্তুত:
checkpoint_manager.save()
if not _is_chief(task_type, task_id):
tf.io.gfile.rmtree(write_checkpoint_dir)
এখন, যখন আপনাকে মডেলটি পুনরুদ্ধার করতে হবে, আপনি সুবিধাজনক tf.train.latest_checkpoint ফাংশন ব্যবহার করে সংরক্ষিত সর্বশেষ চেকপয়েন্টটি খুঁজে পেতে পারেন। চেকপয়েন্ট পুনরুদ্ধার করার পরে, আপনি প্রশিক্ষণ চালিয়ে যেতে পারেন।
latest_checkpoint = tf.train.latest_checkpoint(checkpoint_dir)
checkpoint.restore(latest_checkpoint)
multi_worker_model.fit(multi_worker_dataset, epochs=2, steps_per_epoch=20)
2022-02-05 02:21:33.584421: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_INT64
}
}
}
attr {
key: "_cardinality"
value {
i: 60000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:5"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
}
Epoch 1/2
2022-02-05 02:21:33.803317: W tensorflow/core/framework/dataset.cc:768] Input of GeneratorDatasetOp::Dataset will not be optimized because the dataset does not implement the AsGraphDefInternal() method needed to apply optimizations.
20/20 [==============================] - 3s 13ms/step - loss: 2.2970 - accuracy: 0.0547
Epoch 2/2
20/20 [==============================] - 0s 13ms/step - loss: 2.2690 - accuracy: 0.0938
<keras.callbacks.History at 0x7f6669589850>
ব্যাকআপ এবং কলব্যাক পুনরুদ্ধার করুন
tf.keras.callbacks.BackupAndRestore কলব্যাক BackupAndRestore এ backup_dir আর্গুমেন্টের অধীনে একটি অস্থায়ী চেকপয়েন্ট ফাইলে মডেল এবং বর্তমান যুগের নম্বর ব্যাক আপ করে ত্রুটি সহনশীলতা কার্যকারিতা প্রদান করে। এটি প্রতিটি যুগের শেষে করা হয়।
একবার কাজগুলি বাধাগ্রস্ত হয়ে পুনরায় চালু হলে, কলব্যাক শেষ চেকপয়েন্টটি পুনরুদ্ধার করে এবং বাধাপ্রাপ্ত যুগের শুরু থেকে প্রশিক্ষণ চলতে থাকে। বাধার আগে অসমাপ্ত যুগে ইতিমধ্যে সম্পন্ন করা যেকোন আংশিক প্রশিক্ষণকে ফেলে দেওয়া হবে, যাতে এটি চূড়ান্ত মডেল অবস্থাকে প্রভাবিত না করে।
এটি ব্যবহার করতে, Model.fit কলে tf.keras.callbacks.BackupAndRestore এর একটি উদাহরণ প্রদান করুন।
MultiWorkerMirroredStrategy এর মাধ্যমে, একজন কর্মী বাধাগ্রস্ত হলে, বাধাপ্রাপ্ত কর্মী পুনরায় চালু না হওয়া পর্যন্ত পুরো ক্লাস্টারটি বিরতি দেয়। অন্যান্য কর্মীরাও পুনরায় চালু হবে এবং বাধাপ্রাপ্ত কর্মী ক্লাস্টারে পুনরায় যোগদান করবে। তারপরে, প্রতিটি কর্মী চেকপয়েন্ট ফাইলটি পড়ে যা পূর্বে সংরক্ষিত ছিল এবং এর আগের অবস্থা তুলে নেয়, যার ফলে ক্লাস্টারটিকে সিঙ্কে ফিরে যেতে দেয়। তারপর, প্রশিক্ষণ চলতে থাকে।
BackupAndRestore কলব্যাক CheckpointManager ম্যানেজার ব্যবহার করে প্রশিক্ষণের অবস্থা সংরক্ষণ এবং পুনরুদ্ধার করতে, যা চেকপয়েন্ট নামক একটি ফাইল তৈরি করে যা বিদ্যমান চেকপয়েন্টগুলিকে সর্বশেষের সাথে একসাথে ট্র্যাক করে। এই কারণে, নাম সংঘর্ষ এড়াতে backup_dir অন্য চেকপয়েন্ট সংরক্ষণ করার জন্য পুনরায় ব্যবহার করা উচিত নয়।
বর্তমানে, BackupAndRestore কলব্যাক কোনো কৌশল ছাড়াই একক-কর্মী প্রশিক্ষণকে সমর্থন করে — MirroredStrategy —এবং MultiWorkerMirroredStrategy সাথে বহু-কর্মী প্রশিক্ষণ।
মাল্টি-কর্মী প্রশিক্ষণ এবং একক-কর্মী প্রশিক্ষণ উভয়ের জন্য নীচে দুটি উদাহরণ রয়েছে:
# Multi-worker training with `MultiWorkerMirroredStrategy`
# and the `BackupAndRestore` callback.
callbacks = [tf.keras.callbacks.BackupAndRestore(backup_dir='/tmp/backup')]
with strategy.scope():
multi_worker_model = mnist_setup.build_and_compile_cnn_model()
multi_worker_model.fit(multi_worker_dataset,
epochs=3,
steps_per_epoch=70,
callbacks=callbacks)
2022-02-05 02:21:37.063622: W tensorflow/core/grappler/optimizers/data/auto_shard.cc:776] AUTO sharding policy will apply DATA sharding policy as it failed to apply FILE sharding policy because of the following reason: Found an unshardable source dataset: name: "TensorSliceDataset/_2"
op: "TensorSliceDataset"
input: "Placeholder/_0"
input: "Placeholder/_1"
attr {
key: "Toutput_types"
value {
list {
type: DT_FLOAT
type: DT_INT64
}
}
}
attr {
key: "_cardinality"
value {
i: 60000
}
}
attr {
key: "is_files"
value {
b: false
}
}
attr {
key: "metadata"
value {
s: "\n\024TensorSliceDataset:5"
}
}
attr {
key: "output_shapes"
value {
list {
shape {
dim {
size: 28
}
dim {
size: 28
}
}
shape {
}
}
}
}
experimental_type {
type_id: TFT_PRODUCT
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
args {
type_id: TFT_DATASET
args {
type_id: TFT_PRODUCT
args {
type_id: TFT_TENSOR
args {
type_id: TFT_FLOAT
}
}
args {
type_id: TFT_TENSOR
args {
type_id: TFT_INT64
}
}
}
}
}
Epoch 1/3
70/70 [==============================] - 3s 13ms/step - loss: 2.2667 - accuracy: 0.2123
Epoch 2/3
70/70 [==============================] - 1s 13ms/step - loss: 2.1925 - accuracy: 0.4509
Epoch 3/3
70/70 [==============================] - 1s 13ms/step - loss: 2.1057 - accuracy: 0.5614
<keras.callbacks.History at 0x7f6669555d90>
আপনি যদি BackupAndRestore backup_dir ডিরেক্টরি পরিদর্শন করেন, আপনি কিছু অস্থায়ীভাবে জেনারেট করা চেকপয়েন্ট ফাইল লক্ষ্য করতে পারেন। পূর্বে হারিয়ে যাওয়া দৃষ্টান্তগুলি পুনরুদ্ধার করার জন্য এই ফাইলগুলি প্রয়োজন, এবং আপনার প্রশিক্ষণ সফলভাবে প্রস্থান করার পরে Model.fit এর শেষে লাইব্রেরি দ্বারা সেগুলি সরানো হবে৷
অতিরিক্ত সম্পদ
- TensorFlow গাইডে বিতরণ করা প্রশিক্ষণ উপলব্ধ বিতরণ কৌশলগুলির একটি ওভারভিউ প্রদান করে।
- Keras এবং MultiWorkerMirroredStrategy টিউটোরিয়াল সহ কাস্টম প্রশিক্ষণ লুপ দেখায় কিভাবে Keras এবং একটি কাস্টম প্রশিক্ষণ লুপের সাথে
MultiWorkerMirroredStrategyব্যবহার করতে হয়। - অফিসিয়াল মডেলগুলি দেখুন, যার মধ্যে অনেকগুলি একাধিক বিতরণ কৌশল চালানোর জন্য কনফিগার করা যেতে পারে।
- tf.function গাইডের সাথে আরও ভাল পারফরম্যান্স অন্যান্য কৌশল এবং টুলস সম্পর্কে তথ্য প্রদান করে, যেমন TensorFlow প্রোফাইলার যা আপনি আপনার TensorFlow মডেলের কর্মক্ষমতা অপ্টিমাইজ করতে ব্যবহার করতে পারেন।
TensorFlow.org এ দেখুন
Google Colab-এ চালান
GitHub-এ উৎস দেখুন
নোটবুক ডাউনলোড করুন