Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers? - Цифровое Кемерово

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Гость

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers?

Цитата

Сообщение Гость » 13 мар 2024, 18:35

Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:

Код: Выделить всё

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

transformer_models = [
'M-CLIP/M-BERT-Distil-40',
]

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model)
embeddings = model.encode(sentences)
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))

Выход:

Код: Выделить всё

Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1105.9185

Или

Код: Выделить всё

Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1113.5422

I noticed this situation happens when I restart and clear the output of the jupyter notebook, and then re-run the full notebook. Any idea of how to fix this issue?

Источник: https://stackoverflow.com/questions/781 ... ansformers

Реклама

1710344153

Гость


Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:
[code]
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

transformer_models = [
'M-CLIP/M-BERT-Distil-40',
]

sentences = df['content'].tolist()

for transformer_model in tqdm(transformer_models, desc="Transformer Models"):
tqdm.write(f"Processing with Transformer Model: {transformer_model}")
model = SentenceTransformer(transformer_model)
embeddings = model.encode(sentences)
print(f"Embeddings Checksum for {transformer_model}:", np.sum(embeddings))
[/code]
Выход:
[code]Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1105.9185
[/code]
Или
[code]Embeddings Checksum for M-CLIP/M-BERT-Distil-40: 1113.5422
[/code]
I noticed this situation happens when I restart and clear the output of the jupyter notebook, and then re-run the full notebook. Any idea of how to fix this issue?
 

Источник: [url]https://stackoverflow.com/questions/78154849/different-embedding-checksums-after-encoding-with-sentencetransformers[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Различные контрольные суммы внедрения после кодирования с помощью SentenceTransformers?

Последнее сообщение Гость « 13 мар 2024, 19:14
Добавлено в форуме Python

Гость » 13 мар 2024, 19:14 » в форуме Python

Я вычисляю некоторые вложения с помощью библиотеки SentenceTransformers. Однако я получаю разные результаты при кодировании предложений и вычислении их вложений при проверке суммы их значений. Например:
В:

RANDOM_SEED = 42...

0 Ответы

18 Просмотры

Последнее сообщение Гость
13 мар 2024, 19:14
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 01:33
Добавлено в форуме Python

Anonymous » 30 янв 2025, 01:33 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 01:33
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 16:40
Добавлено в форуме Python

Anonymous » 30 янв 2025, 16:40 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 16:40
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 30 янв 2025, 21:57
Добавлено в форуме Python

Anonymous » 30 янв 2025, 21:57 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
30 янв 2025, 21:57
Как определить, присутствуют ли контрольные суммы в файле Parquet?

Последнее сообщение Anonymous « 31 янв 2025, 02:04
Добавлено в форуме Python

Anonymous » 31 янв 2025, 02:04 » в форуме Python

Недавно я наткнулся на ошибку при чтении таблицы паркета в Pyspark:
Caused by: org.apache.parquet.io.ParquetDecodingException: could not verify page integrity, CRC checksum verification failed

Эта таблица была передана по FTP. Ошибка была...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 02:04

Вернуться в «Python»

Programmiererforum