Как эффективно применить «пространственную» модель для кодирования всего кадра данных «Pandas»? - Цифровое Кемерово

Как эффективно применить «пространственную» модель для кодирования всего кадра данных «Pandas»? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно применить «пространственную» модель для кодирования всего кадра данных «Pandas»?

Цитата

Сообщение Anonymous » 02 июл 2024, 00:53

Я пытаюсь реализовать семантический поиск, при котором мне нужно сопоставить строку запроса с корпусом, присутствующим в кадре данных pandas. Я пытаюсь использовать функцию spacy и ее сходство для вычисления сходства между двумя элементами текста. Чтобы передать его в функцию сходства, сначала мне нужно закодировать весь кадр данных с помощью модели (здесь я использую предварительно обученный конвейер en_core_web_md для получения векторов).
Как мне эффективно работать с несколькими большими кадрами данных? В настоящее время я просто использую функцию pandas map, чтобы применить модель к каждому элементу в кадре данных.

Код: Выделить всё

import spacy
import pandas as pd
import nltk

nltk.download('words')

from nltk.corpus import words

def main():
query_string = "Eat Apple"

# Generate a sample corpus using words from nltk
data = [words.words()[:1000] for _ in range(5)]

df = pd.DataFrame(data).T

compute_semantic_match_score(df, query_string)

def compute_semantic_match_score(df, query):
model = spacy.load("en_core_web_md")

data_embeddings = df.map(model)
query_embedding = model(query)
match_scores = data_embeddings.map(query_embedding.similarity)
print(match_scores)

if __name__=="__main__":
main()

Здесь я использую образец данных, сгенерированный из корпуса nltk, для минимально воспроизводимого примера.
Однако в ограниченной вычислительной среде там, где это будет развернуто, для выполнения потребуется значительное время. Есть ли более эффективный способ применить модель ко всему фрейму данных?
Опорные фреймы данных меняются нечасто, поэтому я могу рассмотреть возможность предварительного вычисления значений данных и сохранения их на диске. Однако я бы предпочел, если это возможно, выполнить обработку вживую.
Любая помощь приветствуется. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/786 ... -dataframe

Реклама

1719870820

Anonymous

Я пытаюсь реализовать семантический поиск, при котором мне нужно сопоставить строку запроса с корпусом, присутствующим в кадре данных pandas. Я пытаюсь использовать функцию spacy и ее сходство для вычисления сходства между двумя элементами текста. Чтобы передать его в функцию сходства, сначала мне нужно закодировать весь кадр данных с помощью модели (здесь я использую предварительно обученный конвейер en_core_web_md для получения векторов).
Как мне эффективно работать с несколькими большими кадрами данных? В настоящее время я просто использую функцию pandas map, чтобы применить модель к каждому элементу в кадре данных.
[code]import spacy
import pandas as pd
import nltk

nltk.download('words')

from nltk.corpus import words

def main():
query_string = "Eat Apple"

# Generate a sample corpus using words from nltk
data = [words.words()[:1000] for _ in range(5)]

df = pd.DataFrame(data).T

compute_semantic_match_score(df, query_string)

def compute_semantic_match_score(df, query):
model = spacy.load("en_core_web_md")

data_embeddings = df.map(model)
query_embedding = model(query)
match_scores = data_embeddings.map(query_embedding.similarity)
print(match_scores)

if __name__=="__main__":
main()
[/code]
Здесь я использую образец данных, сгенерированный из корпуса nltk, для минимально воспроизводимого примера.
Однако в ограниченной вычислительной среде там, где это будет развернуто, для выполнения потребуется значительное время. Есть ли более эффективный способ применить модель ко всему фрейму данных?
Опорные фреймы данных меняются нечасто, поэтому я могу рассмотреть возможность предварительного вычисления значений данных и сохранения их на диске. Однако я бы предпочел, если это возможно, выполнить обработку вживую.
Любая помощь приветствуется. Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78694344/how-to-efficiently-apply-a-spacy-model-to-encode-an-entire-pandas-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Где я могу найти информацию о механизме кодирования кодирования REX2 REX2

Последнее сообщение Anonymous « 11 мар 2025, 13:07
Добавлено в форуме Linux

Anonymous » 11 мар 2025, 13:07 » в форуме Linux

Я хочу найти механизм кодирования префикса rex2. Я говорю о архитектуре X64. Кстати, REX2, включающий себя R16-R31 Регистры. mov %r29, %r31

Есть ли регистры R0-R7?
(rax - r0)... (rdi - r7), r8, ...

rex2 - r16-31
egpr - rex2.
egpr - расширяет...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
11 мар 2025, 13:07
Где я могу найти информацию о механизме кодирования кодирования REX2 REX2

Последнее сообщение Anonymous « 11 мар 2025, 21:04
Добавлено в форуме Linux

Anonymous » 11 мар 2025, 21:04 » в форуме Linux

Я хочу найти механизм кодирования префикса rex2. Я говорю о архитектуре X64. Кстати, REX2, включающий себя R16-R31 Регистры. mov %r29, %r31

Есть ли регистры R0-R7?
(rax - r0)... (rdi - r7), r8, ...

rex2 - r16-31
egpr - rex2.
egpr - расширяет...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
11 мар 2025, 21:04
Синий кризисный загрязнение Проблема кодирования кодирования [закрыто]

Последнее сообщение Anonymous « 29 июн 2025, 13:13
Добавлено в форуме Python

Anonymous » 29 июн 2025, 13:13 » в форуме Python

Заявление проблемы:
Синий кризис: моделирование загрязнения в реальном времени и изоляция
Сетка чистой воды находится под угрозой химического загрязнения из-за потока воды. Вам дано:

Уровни загрязнения в каждой ячейке сетки R × C.

Карта...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 июн 2025, 13:13
Консольное приложение .NET 6: не удалось загрузить пространственную библиотеку SQL Server

Последнее сообщение Anonymous « 29 фев 2024, 21:22
Добавлено в форуме C#

Anonymous » 29 фев 2024, 21:22 » в форуме C#

У меня есть готовое консольное приложение .NET 6, основанное на новом шаблоне проекта, в которое я добавил пакет nuget Microsoft.SqlServer.Types версии 160.1000.6 .

Я получаю следующую ошибку:

Необработанное исключение....

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 21:22
Я хочу знать пространственную сложность этой функции

Последнее сообщение Anonymous « 13 июл 2024, 21:36
Добавлено в форуме JAVA

Anonymous » 13 июл 2024, 21:36 » в форуме JAVA

Я писал этот код и не понимаю, равна ли пространственная сложность этого вопроса O(N) или O(N^2).
Это функция, сложность которой я хочу знать:
static pair[] allPairs(int x, int arr1[], int arr2[]) {
Arrays.sort(arr1);
Arrays.sort(arr2);
ArrayList...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
13 июл 2024, 21:36

Вернуться в «Python»

Programmiererforum