Преобразование токенизатора HuggingFace в слой TensorFlow Keras

Преобразование токенизатора HuggingFace в слой TensorFlow Keras ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Преобразование токенизатора HuggingFace в слой TensorFlow Keras

Цитата

Сообщение Anonymous » 21 окт 2024, 13:27

Я изо всех сил пытаюсь понять, как выполнить вывод с помощью предварительно обученной модели HuggingFace, загруженной как модель TensorFlow Keras.
КонтекстВ моем случае я пытаюсь настроить предварительно обученный классификатор DistilBert. У меня есть что-то вроде следующего для предварительной обработки данных и загрузки/обучения моей модели:

Код: Выделить всё

from transformers import TFAutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

model = TFAutoModelForSequenceClassification.from_pretrained(
"distilbert-base-uncased", num_labels=2, id2label=id2label, label2id=label2id
)

# add another layer

tf_train = model.prepare_tf_dataset(question_train_test_split['train'], batch_size=16, shuffle=True, tokenizer=tokenizer)

model.compile(optimizer=tf.keras.optimizers.Adam(2e-5))

# freeze the first transformer layer of model

model.layers[0].trainable=False

print('Model Architecture:')
print(model.summary())

model.fit(tf_train, epochs=3)

Где вопрос_train_test_split — это экземпляр объекта HuggingFace Dataset.
Этот фрагмент кода работает отлично, как и ожидалось, он загружается модель HuggingFace как слой tf.keras. Это даже правильно тренируется с помощью метода .fit.
Однако у меня возникают проблемы, когда я хочу выполнить прогнозы. Я понимаю, что мне нужно токенизировать вводимые строки, однако я хотел бы загрузить токенизатор как слой tf.keras. Я везде искал способ сделать это и не смог найти.
В идеале мне бы хотелось что-то вроде этого:

Код: Выделить всё

user_input = 'When were the Beatles formed?'

model_input = tokenizer(user_input) # THIS HF TOKENIZER SHOULD BE A tf.keras LAYER

model = model(model_input)

Это сделано для того, чтобы я мог сохранить всю модель (со слоями токенизатора и преобразователя + слоями классификатора) в TensorFlow SavedModel. Если есть какие-либо указатели на преобразование токенизатора HuggingFace в слой TensorFlow Keras, я был бы признателен за указатель.

Подробнее здесь: https://stackoverflow.com/questions/776 ... eras-layer

1729506476

Anonymous

Я изо всех сил пытаюсь понять, как выполнить вывод с помощью предварительно обученной модели HuggingFace, загруженной как модель TensorFlow Keras.
[b]Контекст[/b]В моем случае я пытаюсь настроить предварительно обученный классификатор DistilBert. У меня есть что-то вроде следующего для предварительной обработки данных и загрузки/обучения моей модели:
[code]from transformers import TFAutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

model = TFAutoModelForSequenceClassification.from_pretrained(
"distilbert-base-uncased", num_labels=2, id2label=id2label, label2id=label2id
)

# add another layer

tf_train = model.prepare_tf_dataset(question_train_test_split['train'], batch_size=16, shuffle=True, tokenizer=tokenizer)

model.compile(optimizer=tf.keras.optimizers.Adam(2e-5))

# freeze the first transformer layer of model

model.layers[0].trainable=False

print('Model Architecture:')
print(model.summary())

model.fit(tf_train, epochs=3)

[/code]
Где вопрос_train_test_split — это экземпляр объекта HuggingFace Dataset.
Этот фрагмент кода работает отлично, как и ожидалось, он загружается модель HuggingFace как слой tf.keras. Это даже правильно тренируется с помощью метода .fit.
Однако у меня возникают проблемы, когда я хочу выполнить прогнозы. Я понимаю, что мне нужно токенизировать вводимые строки, однако я хотел бы загрузить токенизатор как слой tf.keras. Я везде искал способ сделать это и не смог найти.
В идеале мне бы хотелось что-то вроде этого:
[code]user_input = 'When were the Beatles formed?'

model_input = tokenizer(user_input) # THIS HF TOKENIZER SHOULD BE A tf.keras LAYER

model = model(model_input)

[/code]
Это сделано для того, чтобы я мог сохранить всю модель (со слоями токенизатора и преобразователя + слоями классификатора) в TensorFlow SavedModel. Если есть какие-либо указатели на преобразование токенизатора HuggingFace в слой TensorFlow Keras, я был бы признателен за указатель. 

Подробнее здесь: [url]https://stackoverflow.com/questions/77617031/converting-huggingface-tokenizer-to-tensorflow-keras-layer[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Преобразование токенизатора HuggingFace в TensorFlow керас слой

Последнее сообщение Anonymous « 10 апр 2025, 03:03
Добавлено в форуме Python

Anonymous » 10 апр 2025, 03:03 » в форуме Python

Я изо всех сил пытаюсь понять, как сделать вывод с предварительно обученной моделью Huggingface, загруженной как модель Tensorflow Keras. У меня есть что -то следующим образом, чтобы предварительно обрабатывать мои данные и загружать/тренировать мою...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
10 апр 2025, 03:03
Преобразование токенизатора HuggingFace в TensorFlow керас слой

Последнее сообщение Anonymous « 10 апр 2025, 04:16
Добавлено в форуме Python

Anonymous » 10 апр 2025, 04:16 » в форуме Python

Я изо всех сил пытаюсь понять, как сделать вывод с предварительно обученной моделью Huggingface, загруженной как модель Tensorflow Keras. У меня есть что -то следующим образом, чтобы предварительно обрабатывать мои данные и загружать/тренировать мою...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
10 апр 2025, 04:16
Преобразование токенизатора HuggingFace в TensorFlow керас слой

Последнее сообщение Anonymous « 10 апр 2025, 04:59
Добавлено в форуме Python

Anonymous » 10 апр 2025, 04:59 » в форуме Python

Я изо всех сил пытаюсь понять, как сделать вывод с предварительно обученной моделью Huggingface, загруженной как модель Tensorflow Keras. У меня есть что -то следующим образом, чтобы предварительно обрабатывать мои данные и загружать/тренировать мою...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
10 апр 2025, 04:59
Преобразование медленного токенизатора HuggingFace в быстрый токенизатор

Последнее сообщение Anonymous « 09 окт 2024, 15:02
Добавлено в форуме Python

Anonymous » 09 окт 2024, 15:02 » в форуме Python

У меня есть модель, обученная на диск с помощью медленного токенизатора:
from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa

mybert =...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 15:02
Управляя неправильным импортом токенизатора Tensorflow и Tensorflow Padded_sexences

Последнее сообщение Anonymous « 01 июн 2025, 09:25
Добавлено в форуме Python

Anonymous » 01 июн 2025, 09:25 » в форуме Python

У меня есть нейронная сеть, которая получает данные из файла TXT и использует NLP, чтобы узнать, как говорить как человек. Но всякий раз, когда я загружаю токенизатор и Padded_ Sequences, (которые оба необходимы)
они неправильно импортируют....

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
01 июн 2025, 09:25

Вернуться в «Python»