Индексация в тензор факела с индексами переменной длины вдоль оси

Индексация в тензор факела с индексами переменной длины вдоль оси ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Индексация в тензор факела с индексами переменной длины вдоль оси

Цитата

Сообщение Anonymous » 01 апр 2024, 17:57

Я пытаюсь вычислить вероятности слов в списке токенизированных слов в соответствии с языковой моделью, и мне нужна необычная индексация.
Мои входные данные проиллюстрированы игрушечным примером ниже :

token_list: n_words x max_tokenization_length (например, три слова, где максимальная длина токенизации равна 3)
pxhs: n_words x (max_tokenization_length + 1) x |vocabulary|, (например, три слова, четыре набора логитов для токенов 3+1 и словарь размером 1000)
next_word_token_ids: список токенов, которые составляют новое слово (например, все токены, начинающиеся с пробела).

Код: Выделить всё

pxhs = torch.rand((3,4,1000))

pad_token_id = tokenizer.pad_token_id
word_token_list = [
[120, pad_token_id, pad_token_id],
[131, 132, pad_token_id],
[140, 141, 142],
]

new_word_token_ids = [0,1,2,3,5]

Желаемый результат — это список вероятностей слов длиной 3, рассчитанный следующим образом:

Код: Выделить всё

word 1: pxhs[0, 0, 120] * pxhs[0, 1, new_word_token_ids].sum()
word 2: pxhs[1, 0, 131] * pxhs[1, 1, 132] * pxhs[1, 2, new_word_token_ids].sum()
word 3: pxhs[2, 0, 140] * pxhs[2, 1, 141] * pxhs[2, 2, 142] * pxhs[2, 3, new_word_token_ids].sum()

На практике я хочу индексировать, заменяя первый Pad_token_id новыми идентификаторами токенов слов, а затем ничего (это не работает как индекс, просто иллюстрирую):

Код: Выделить всё

actual_idx = [
[[120], new_word_token_ids, [None], [None]],
[[131], [132], new_word_token_ids, [None]],
[[140], [142], [143], new_word_token_ids],
]

Я написал очень медленную функцию, которая делает это:

Код: Выделить всё

all_word_probs = []
for word_tokens, word_probs in zip(token_list, pxhs):
counter=0
p_word=1
while (counter < len(word_tokens) and
word_tokens[counter] != tokenizer.pad_token_id):
p_word = p_word * word_probs[counter, word_tokens[counter]]
counter+=1
new_word_prob = word_probs[counter, new_word_tokens].sum()
p_word = p_word * new_word_prob
all_word_probs.append(p_word)

Мне нужно что-то побыстрее, заранее спасибо за помощь!

Подробнее здесь: https://stackoverflow.com/questions/782 ... ng-an-axis

1711983435

Anonymous

Я пытаюсь вычислить вероятности слов в списке токенизированных слов в соответствии с языковой моделью, и мне нужна необычная индексация.
Мои входные данные проиллюстрированы игрушечным примером ниже :
[list]
[*]token_list: n_words x max_tokenization_length (например, три слова, где максимальная длина токенизации равна 3)
[*]pxhs: n_words x (max_tokenization_length + 1) x |vocabulary|, (например, три слова, четыре набора логитов для токенов 3+1 и словарь размером 1000)
[*]next_word_token_ids: список токенов, которые составляют новое слово (например, все токены, начинающиеся с пробела).
[/list]
[code]pxhs = torch.rand((3,4,1000))

pad_token_id = tokenizer.pad_token_id
word_token_list = [
[120, pad_token_id, pad_token_id],
[131, 132, pad_token_id],
[140, 141, 142],
]

new_word_token_ids = [0,1,2,3,5]
[/code]
Желаемый результат — это список вероятностей слов длиной 3, рассчитанный следующим образом:
[code]word 1: pxhs[0, 0, 120] * pxhs[0, 1, new_word_token_ids].sum()
word 2: pxhs[1, 0, 131] * pxhs[1, 1, 132] * pxhs[1, 2, new_word_token_ids].sum()
word 3: pxhs[2, 0, 140] * pxhs[2, 1, 141] * pxhs[2, 2, 142] * pxhs[2, 3, new_word_token_ids].sum()
[/code]
На практике я хочу индексировать, заменяя первый Pad_token_id новыми идентификаторами токенов слов, а затем ничего (это не работает как индекс, просто иллюстрирую):
[code]actual_idx = [
[[120], new_word_token_ids, [None], [None]],
[[131], [132], new_word_token_ids, [None]],
[[140], [142], [143], new_word_token_ids],
]
[/code]
Я написал очень медленную функцию, которая делает это:
[code]all_word_probs = []
for word_tokens, word_probs in zip(token_list, pxhs):
counter=0
p_word=1
while (counter < len(word_tokens) and
word_tokens[counter] != tokenizer.pad_token_id):
p_word = p_word * word_probs[counter, word_tokens[counter]]
counter+=1
new_word_prob = word_probs[counter, new_word_tokens].sum()
p_word = p_word * new_word_prob
all_word_probs.append(p_word)
[/code]
Мне нужно что-то побыстрее, заранее спасибо за помощь! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78256167/indexing-into-torch-tensor-with-variable-length-indices-along-an-axis[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Разреженность факела с использованием версии CUDA среды вместо версии факела

Последнее сообщение Anonymous « 25 ноя 2024, 12:40
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 12:40 » в форуме Python

Я пытаюсь запустить скрипт Python в кластере, для которого требуется следующее:
torch==1.7.1

torch-sparse== 0.6.8
Проблема в том, что когда я устанавливаю оба из них, torch поставляется с версией cuda 10.2, а torch-sparse использует доступную...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 12:40
Ошибка сегментации при попытке скопировать память из буфера Gst в тензор факела с помощью torch::from_blob::clone()

Последнее сообщение Anonymous « 16 янв 2025, 14:12
Добавлено в форуме C++

Anonymous » 16 янв 2025, 14:12 » в форуме C++

Я получаю сообщение об ошибке сегментации, когда пытаюсь скопировать память из буфера GST в тензор факела. Вот код. Я отмечу, откуда происходит ошибка:
static GstPadProbeReturn on_probe(
GstPad *pad, GstPadProbeInfo *info, gpointer user_data
) {...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 14:12
Ошибка ImportError: невозможно импортировать имя «Тензор» из «факела» (неизвестное местоположение)

Последнее сообщение Anonymous « 19 янв 2025, 03:33
Добавлено в форуме Python

Anonymous » 19 янв 2025, 03:33 » в форуме Python

Я пытаюсь импортировать Tensor из PyTorch:
from torch import Tensor

но я продолжаю получать эту ошибку:
ImportError: cannot import name 'Tensor' from 'torch' (unknown location)

Что я пробовал:

Проверил, что PyTorch установлен ( pip show...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 03:33
Ошибка ImportError: невозможно импортировать имя «Тензор» из «факела» (неизвестное местоположение)

Последнее сообщение Anonymous « 20 янв 2025, 20:48
Добавлено в форуме Python

Anonymous » 20 янв 2025, 20:48 » в форуме Python

Я пытаюсь импортировать Tensor из PyTorch:
from torch import Tensor

но я продолжаю получать эту ошибку:
ImportError: cannot import name 'Tensor' from 'torch' (unknown location)

Что я пробовал:

Проверил, что PyTorch установлен ( pip show...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
20 янв 2025, 20:48
Индексация FAISS и индексация набора данных не совпадают

Последнее сообщение Anonymous « 17 фев 2025, 04:52
Добавлено в форуме Python

Anonymous » 17 фев 2025, 04:52 » в форуме Python

Я пытаюсь вычислить отзыв после выполнения поиска HNSW в Faiss. По всему, я имею в виду следующую метрику:
Recall = TP + (TP + FN)

, где я рассматриваю изображение как истинное положительное (TP), если оно появляется в результатах поиска...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
17 фев 2025, 04:52

Вернуться в «Python»