Внедрение превышения лимита токена путем объединения фрагментов и уменьшения размерности

Внедрение превышения лимита токена путем объединения фрагментов и уменьшения размерности ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Внедрение превышения лимита токена путем объединения фрагментов и уменьшения размерности

Цитата

Сообщение Anonymous » 25 июн 2024, 12:25

Если вы хотите создавать внедрения для документов с помощью Azure OpenAI с моделью ada-002, вам следует отправить в этот API максимум 8192 токена. Если в одном документе более 8 000 токенов, то для его обработки мы должны выполнить определенные шаги, согласно моему расследованию.

Подготовить текст документа, очистить, нормализовать, удалить-стоп-слова, чтобы иметь возможность подсчитывать токены, как их подсчитывает Azure OpenAI ada-002.
Токенизировать текст документа в слова, разделив его по пробелу (" ")
Если токены документа превышают 8 КБ, разделите его на большее количество вложенных документов с максимальным количеством токенов 8 КБ.
Передайте эти вложенные документы 8 КБ из конечной точки Azure OpenAI ada-002 и получить внедрения для каждого вложенного документа.
Объедините эти внедрения с плавающей запятой (путем добавления) в один вектор, чтобы представить исходный документ.
Затем Чтобы иметь возможность находить похожие документы на основе вопросов, вектор вопроса и векторы документов должны иметь одинаковую длину, поэтому нам, очевидно, необходимо уменьшить размерность документов, которые были разделены и повторно вставлены в один вектор.

Например, если документ (10 КБ токенов) разделен на два поддокумента (8 КБ и 2 КБ), каждое вложение поддокумента будет иметь 1536 измерений, и, следовательно, весь документ будет иметь 1536 x 2 = 3072. Вопрос, который не превышает токенов 8 КБ, будет иметь 1536 и, следовательно, не может сравниваться со всеми документами.
Итак, есть ли способ правильно уменьшить их размеры? документы из 3072 тусклых обратно в 1536 тусклых?
Согласно моим исследованиям, это можно сделать с помощью PCA, я нашел следующий пример на C#, но здесь вместо этого данные [][] из []:

Код: Выделить всё

double[][] data = new double[][]
{
// ... Your combined embedding vectors here
};

// Create a new Principal Component Analysis
var pca = new PrincipalComponentAnalysis()
{
Method = PrincipalComponentMethod.Center,
Whiten = false
};

// Learn the PCA model
pca.Learn(data);

// Transform the data into the reduced dimensionality space
double[][] reducedData = pca.Transform(data, 3); // Reducing to 3 dimensions

Есть идеи?

Подробнее здесь: https://stackoverflow.com/questions/786 ... nality-red

1719307556

Anonymous

Если вы хотите создавать внедрения для документов с помощью Azure OpenAI с моделью ada-002, вам следует отправить в этот API максимум 8192 токена. Если в одном документе более 8 000 токенов, то для его обработки мы должны выполнить определенные шаги, согласно моему расследованию.
[list]
[*]Подготовить текст документа, очистить, нормализовать, удалить-стоп-слова, чтобы иметь возможность подсчитывать токены, как их подсчитывает Azure OpenAI ada-002.
[*]Токенизировать текст документа в слова, разделив его по пробелу (" ")
[*]Если токены документа превышают 8 КБ, разделите его на большее количество вложенных документов с максимальным количеством токенов 8 КБ.
[*]Передайте эти вложенные документы 8 КБ из конечной точки Azure OpenAI ada-002 и получить внедрения для каждого вложенного документа.
[*]Объедините эти внедрения с плавающей запятой (путем добавления) в один вектор, чтобы представить исходный документ.
[*]Затем Чтобы иметь возможность находить похожие документы на основе вопросов, вектор вопроса и векторы документов должны иметь одинаковую длину, поэтому нам, очевидно, необходимо уменьшить размерность документов, которые были разделены и повторно вставлены в один вектор.
[/list]
Например, если документ (10 КБ токенов) разделен на два поддокумента (8 КБ и 2 КБ), каждое вложение поддокумента будет иметь 1536 измерений, и, следовательно, весь документ будет иметь 1536 x 2 = 3072. Вопрос, который не превышает токенов 8 КБ, будет иметь 1536 и, следовательно, не может сравниваться со всеми документами.
Итак, есть ли способ правильно уменьшить их размеры? документы из 3072 тусклых обратно в 1536 тусклых?
Согласно моим исследованиям, это можно сделать с помощью PCA, я нашел следующий пример на C#, но здесь вместо этого данные [][] из []:
[code]double[][] data = new double[][]
{
// ... Your combined embedding vectors here
};

// Create a new Principal Component Analysis
var pca = new PrincipalComponentAnalysis()
{
Method = PrincipalComponentMethod.Center,
Whiten = false
};

// Learn the PCA model
pca.Learn(data);

// Transform the data into the reduced dimensionality space
double[][] reducedData = pca.Transform(data, 3); // Reducing to 3 dimensions
[/code]
Есть идеи? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78622400/embedding-token-limit-overpass-by-chunkingm-concatenation-and-dimensionality-red[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема с Leetcode из-за превышения лимита памяти

Последнее сообщение Anonymous « 04 июл 2024, 00:45
Добавлено в форуме C++

Anonymous » 04 июл 2024, 00:45 » в форуме C++

Недавно я начал заниматься литкодом и дела идут лучше. Я попытался решить задачу и прошел все тестовые случаи 479/485. Но мой код плохо справляется с большим набором данных.
Я попробовал дополнить код самостоятельно, и он хорошо работает с...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 00:45
Проблема с Leetcode из-за превышения лимита памяти

Последнее сообщение Anonymous « 04 июл 2024, 02:39
Добавлено в форуме C++

Anonymous » 04 июл 2024, 02:39 » в форуме C++

Недавно я начал заниматься литкодом и дела идут лучше. Я попытался решить задачу и прошел все тестовые случаи 479/485. Но мой код плохо справляется с большим набором данных.
Я попробовал дополнить код самостоятельно, и он хорошо работает с...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 02:39
Проблема с Leetcode из-за превышения лимита памяти

Последнее сообщение Anonymous « 04 июл 2024, 07:33
Добавлено в форуме C++

Anonymous » 04 июл 2024, 07:33 » в форуме C++

Недавно я начал заниматься литкодом и дела идут лучше. Я попытался решить задачу и прошел все тестовые случаи 479/485. Но мой код плохо справляется с большим набором данных.
Я попробовал дополнить код самостоятельно, и он хорошо работает с...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 07:33
Как устранить ошибку превышения лимита времени в литкоде

Последнее сообщение Anonymous « 19 сен 2024, 09:38
Добавлено в форуме Python

Anonymous » 19 сен 2024, 09:38 » в форуме Python

Я написал код для самого длинного общего префикса в LeetCode, но он получил сообщение «Превышен лимит времени».

Конкретного сообщения об ошибке нет, поэтому я понятия не имею, как исправить мой код, чтобы он прошел тестовые примеры.

class...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 09:38
Как устранить ошибку превышения лимита времени в литкоде

Последнее сообщение Anonymous « 21 сен 2024, 21:56
Добавлено в форуме Python

Anonymous » 21 сен 2024, 21:56 » в форуме Python

Я написал код для самого длинного общего префикса в LeetCode, но он получил сообщение «Превышен лимит времени».

Конкретного сообщения об ошибке нет, поэтому я понятия не имею, как исправить мой код, чтобы он прошел тестовые примеры.

class...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 21:56

Вернуться в «C#»