Модель Берта не учится с использованием JAX. Результаты не меняются

Модель Берта не учится с использованием JAX. Результаты не меняются ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модель Берта не учится с использованием JAX. Результаты не меняются

Цитата

Сообщение Anonymous » 24 янв 2025, 11:33

Я обучаю модель BERT классификации спама с использованием JAX на TPU. Моя модель не обучалась, и ее результаты не изменились.

Код: Выделить всё

Epoch 0: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
Epoch 1: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
Epoch 2: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
< /code>
Код для обучения: < /p>
@jax.pmap
def train_step(state, batch, labels):
def loss_fn(params):

# get everything out of the batch to the model and pass the model parameters
logits = model(**batch, params = state.params).logits
loss = compute_loss(logits, labels) # compute the loss

return loss, logits

# turn the loss function into a grad differential function
grad_fn = jax.value_and_grad(loss_fn, has_aux = True) # has_aux allows the return of the logits
# get the loss and grads from the grad_fn
(loss, logits), grads = grad_fn(state.params)
# update the model state by using the produces gradients
new_state = state.apply_gradients(grads = grads)

return loss, logits, new_state

for epoch in range(epochs):
epoch_losses, epoch_accuracies = [], []
for batch in train_dataset:

batch["input_ids"] = jnp.array(batch["input_ids"])
batch["attention_mask"] = jnp.array(batch["attention_mask"])
batch["token_type_ids"] = jnp.array(batch["token_type_ids"])

# we will replicate the value over multiple devices (tpus)
batch_inputs = {k: jax.device_put_replicated(v, jax.devices()) for k, v in batch.items() if k != "Category"}
batch_labels = jax.device_put_replicated(batch["Category"], jax.devices())  # replicate labels across devices

# remove none from data
batch_labels = safe_convert_to_jax_array(jnp.array(batch_labels))
batch_labels = batch_labels.transpose(1, 0)

loss, logits, state = train_step(state, batch_inputs, batch_labels)

cls_logits = logits[:, :, 0, :]
classification_logits = cls_logits[:, :, :2]

predicted_labels = jnp.argmax(classification_logits, axis = -1)
accuracy = compute_accuracy(predicted_labels, batch_labels)
< /code>
Код для инициализации состояния: < /p>
class TrainState(train_state.TrainState):
pass

# our model parameters
params = model.params
# create the intial state for our training
state = TrainState.create(apply_fn = model.__call__, params = params, tx = optimizer)

def safe_convert_to_jax_array(input_data, default_value = 0):
# replace None values with default_value
return jnp.array([default_value if x is None else x for x in input_data])

# replicate the state across tpus
state = jax.device_put_replicated(state, jax.devices())

Чтобы просмотреть полный код: https://www.kaggle.com/code/yousefr/ber ... x-and-tpus
Кроме того, я пытался настроить скорость обучения, но это не помогло.

Подробнее здесь: https://stackoverflow.com/questions/793 ... ont-change

1737707603

Anonymous

Я обучаю модель BERT классификации спама с использованием JAX на TPU. Моя модель не обучалась, и ее результаты не изменились.
[code]Epoch 0: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
Epoch 1: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
Epoch 2: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval Accuracy = 0.0
< /code>
Код для обучения: < /p>
@jax.pmap
def train_step(state, batch, labels):
def loss_fn(params):

# get everything out of the batch to the model and pass the model parameters
logits = model(**batch, params = state.params).logits
loss = compute_loss(logits, labels) # compute the loss

return loss, logits

# turn the loss function into a grad differential function
grad_fn = jax.value_and_grad(loss_fn, has_aux = True) # has_aux allows the return of the logits
# get the loss and grads from the grad_fn
(loss, logits), grads = grad_fn(state.params)
# update the model state by using the produces gradients
new_state = state.apply_gradients(grads = grads)

return loss, logits, new_state

for epoch in range(epochs):
epoch_losses, epoch_accuracies = [], []
for batch in train_dataset:

batch["input_ids"] = jnp.array(batch["input_ids"])
batch["attention_mask"] = jnp.array(batch["attention_mask"])
batch["token_type_ids"] = jnp.array(batch["token_type_ids"])

# we will replicate the value over multiple devices (tpus)
batch_inputs = {k: jax.device_put_replicated(v, jax.devices()) for k, v in batch.items() if k != "Category"}
batch_labels = jax.device_put_replicated(batch["Category"], jax.devices())  # replicate labels across devices

# remove none from data
batch_labels = safe_convert_to_jax_array(jnp.array(batch_labels))
batch_labels = batch_labels.transpose(1, 0)

loss, logits, state = train_step(state, batch_inputs, batch_labels)

cls_logits = logits[:, :, 0, :]
classification_logits = cls_logits[:, :, :2]

predicted_labels = jnp.argmax(classification_logits, axis = -1)
accuracy = compute_accuracy(predicted_labels, batch_labels)
< /code>
Код для инициализации состояния: < /p>
class TrainState(train_state.TrainState):
pass

# our model parameters
params = model.params
# create the intial state for our training
state = TrainState.create(apply_fn = model.__call__, params = params, tx = optimizer)

def safe_convert_to_jax_array(input_data, default_value = 0):
# replace None values with default_value
return jnp.array([default_value if x is None else x for x in input_data])

# replicate the state across tpus
state = jax.device_put_replicated(state, jax.devices())
[/code]
Чтобы просмотреть полный код: https://www.kaggle.com/code/yousefr/bert-spam-classification-using-jax-and-tpus
Кроме того, я пытался настроить скорость обучения, но это не помогло. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79383687/bert-model-not-learning-using-jax-results-dont-change[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модель Берта разделяет слова самостоятельно

Последнее сообщение Anonymous « 17 дек 2024, 13:04
Добавлено в форуме Python

Anonymous » 17 дек 2024, 13:04 » в форуме Python

Я маркирую входные слова, используя модель Берта.
Код:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained( bert-base-multilingual-cased , add_pooling_layer=False,...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 13:04
Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю)

Последнее сообщение Anonymous « 05 ноя 2024, 01:53
Добавлено в форуме Python

Anonymous » 05 ноя 2024, 01:53 » в форуме Python

Я новичок в машинном обучении, поэтому прошу прощения, если это не совсем понятно, но я постараюсь быть максимально кратким.
Я настраиваю предварительно обученную модель BERT, в частности «без оболочки на основе bert», и частью этого было обновление...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
05 ноя 2024, 01:53
Модели Берта показывают статистику токенизации

Последнее сообщение Anonymous « 09 ноя 2024, 01:46
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 01:46 » в форуме Python

Есть ли какой-либо встроенный способ запроса статистики токенизации при использовании BertTokenizer.from_pretrained('bert-base-uncased') и BertModel.from_pretrained('bert-base-uncased'), чтобы понять, насколько эффективно обрабатываются мои тексты...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 01:46
Ранняя остановка в инстансах Берта Трейнера

Последнее сообщение Anonymous « 23 ноя 2024, 10:25
Добавлено в форуме Python

Anonymous » 23 ноя 2024, 10:25 » в форуме Python

Я настраиваю модель BERT для задачи многоклассовой классификации. Моя проблема в том, что я не знаю, как добавить «раннюю остановку» к этим экземплярам Trainer. Есть идеи?

Подробнее здесь:

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 10:25
Как использовать jax.custom_vjp с функциями, которые принимают в качестве входных данных типы, отличные от JAX (например

Последнее сообщение Anonymous « 26 сен 2024, 14:46
Добавлено в форуме Python

Anonymous » 26 сен 2024, 14:46 » в форуме Python

Я пытаюсь использовать JAX custom_vjp для определения пользовательских вычислений градиента для функции, которая принимает выражение SymPy в качестве входных данных. Однако я сталкиваюсь с ошибками, поскольку JAX не поддерживает типы, отличные от...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 14:46

Вернуться в «Python»