Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers? - Цифровое Кемерово

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Гость

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers?

Цитата

Сообщение Гость » 13 мар 2024, 19:14

Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:

Код: Выделить всё

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

transformer_models = [
'M-CLIP/M-BERT-Distil-40',
]

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model)
embeddings = model.encode(sentences)
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))

Выход:

Код: Выделить всё

Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1105.9185

Или

Код: Выделить всё

Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1113.5422

Я заметил, что такая ситуация возникает, когда я перезапускаю и очищаю выходные данные блокнота Jupyter, а затем повторно запускаю весь блокнот. Есть идеи, как решить эту проблему?
Альтернатива, которую я пытался установить после и до расчета вложений, повторных начальных чисел:

Код: Выделить всё

import torch
import numpy as np
import random
import tensorflow as tf
from sentence_transformers import SentenceTransformer
from tqdm.auto import tqdm

RANDOM_SEED = 42

# Setting seeds
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

# Ensuring PyTorch determinism
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

transformer_models = ['M-CLIP/M-BERT-Distil-40']

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
# Set the seed again right before loading the model
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model, device='cpu')  # Force to use CPU

embeddings = model.encode(sentences, show_progress_bar=False)  # Disable progress bar and parallel tokenization
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))

However I am getting the same inconsistent behavior.

Источник: https://stackoverflow.com/questions/781 ... ansformers

Реклама

1710346461

Гость


Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:
[code]
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

transformer_models = [
'M-CLIP/M-BERT-Distil-40',
]

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model)
embeddings = model.encode(sentences)
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))
[/code]
Выход:
[code]Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1105.9185
[/code]
Или
[code]Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1113.5422
[/code]
Я заметил, что такая ситуация возникает, когда я перезапускаю и очищаю выходные данные блокнота Jupyter, а затем повторно запускаю весь блокнот. Есть идеи, как решить эту проблему?
Альтернатива, которую я пытался установить после и до расчета вложений, повторных начальных чисел:
[code]import torch
import numpy as np
import random
import tensorflow as tf
from sentence_transformers import SentenceTransformer
from tqdm.auto import tqdm

RANDOM_SEED = 42

# Setting seeds
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

# Ensuring PyTorch determinism
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

transformer_models = ['M-CLIP/M-BERT-Distil-40']

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
# Set the seed again right before loading the model
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model, device='cpu')  # Force to use CPU

embeddings = model.encode(sentences, show_progress_bar=False)  # Disable progress bar and parallel tokenization
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))
[/code]
However I am getting the same inconsistent behavior.
 

Источник: [url]https://stackoverflow.com/questions/78154849/different-embedding-checksums-after-encoding-with-sentencetransformers[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers?

Последнее сообщение Гость « 13 мар 2024, 18:35
Добавлено в форуме Python

Гость » 13 мар 2024, 18:35 » в форуме Python

Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:

RANDOM_SEED = 42...

0 Ответы

10 Просмотры

Последнее сообщение Гость
13 мар 2024, 18:35
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 01:33
Добавлено в форуме Python

Anonymous » 30 янв 2025, 01:33 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 01:33
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 16:40
Добавлено в форуме Python

Anonymous » 30 янв 2025, 16:40 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 16:40
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 21:57
Добавлено в форуме Python

Anonymous » 30 янв 2025, 21:57 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 21:57
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 31 янв 2025, 02:04
Добавлено в форуме Python

Anonymous » 31 янв 2025, 02:04 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 02:04

Вернуться в «Python»

Programmiererforum