Как я могу сопоставить каждое возвращенное встраивание с текстом, который я ему дал, чтобы сохранить их в базе данных? - Цифровое Кемерово

Как я могу сопоставить каждое возвращенное встраивание с текстом, который я ему дал, чтобы сохранить их в базе данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как я могу сопоставить каждое возвращенное встраивание с текстом, который я ему дал, чтобы сохранить их в базе данных?

Цитата

Сообщение Anonymous » 04 ноя 2024, 16:51

Я создал этот скрипт, который читает текст из pdf и для каждого абзаца вычисляет встраивания с помощью API Cohere Embeddings:

Код: Выделить всё

import os
import cohere
import time

from pypdf import PdfReader
from dotenv import load_dotenv
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams

load_dotenv()

docsFolder='./docs'

def getTextFromPDF(fileName):
text = ""
reader = PdfReader(fileName)
for page in reader.pages:
text += page.extract_text() + "\n"
return text

def getPhrases(docsFolder):
phrases=[]

with os.scandir(docsFolder) as it:
for entry in it:
if not entry.name.startswith('.') and entry.is_file():
text=getTextFromPDF(docsFolder+"/"+entry.name)
passages = [p.strip() for p in text.split("\n\n") if p.strip()]
phrases.extend(passages)

return phrases

start = time.perf_counter()
phrases = getPhrases(docsFolder)
end = time.perf_counter()

print("Passage Extraction time "+str(end-start)+" seconds")

co = cohere.ClientV2(api_key=os.getenv("COHERE_KEY"))

start = time.perf_counter()
res = co.embed(texts=phrases,model="embed-multilingual-v3.0", input_type="search_document",embedding_types=['float'])
end = time.perf_counter()

print("Embeddings generation time: "+str(end-start)+" seconds")

print(len(res.texts),len(res.embeddings.float),len(phrases))

# Save results here

Я хочу сопоставить входные тексты с их встраиванием, возвращенным из API-интерфейса Cohere, чтобы я мог их сохранить. Причина в том, чтобы использовать их позже, а не пересчитывать.
Но что мне трудно, так это то, что каждый элемент res.embeddings.float для того, чтобы в качестве входных данных были заданы фразы.

Подробнее здесь: https://stackoverflow.com/questions/791 ... -i-can-sav

Реклама

1730728298

Anonymous

Я создал этот скрипт, который читает текст из pdf и для каждого абзаца вычисляет встраивания с помощью API Cohere Embeddings:
[code]
import os
import cohere
import time

from pypdf import PdfReader
from dotenv import load_dotenv
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams

load_dotenv()

docsFolder='./docs'

def getTextFromPDF(fileName):
text = ""
reader = PdfReader(fileName)
for page in reader.pages:
text += page.extract_text() + "\n"
return text

def getPhrases(docsFolder):
phrases=[]

with os.scandir(docsFolder) as it:
for entry in it:
if not entry.name.startswith('.') and entry.is_file():
text=getTextFromPDF(docsFolder+"/"+entry.name)
passages = [p.strip() for p in text.split("\n\n") if p.strip()]
phrases.extend(passages)

return phrases

start = time.perf_counter()
phrases = getPhrases(docsFolder)
end = time.perf_counter()

print("Passage Extraction time "+str(end-start)+" seconds")

co = cohere.ClientV2(api_key=os.getenv("COHERE_KEY"))

start = time.perf_counter()
res = co.embed(texts=phrases,model="embed-multilingual-v3.0", input_type="search_document",embedding_types=['float'])
end = time.perf_counter()

print("Embeddings generation time: "+str(end-start)+" seconds")

print(len(res.texts),len(res.embeddings.float),len(phrases))

# Save results here
[/code]
Я хочу сопоставить входные тексты с их встраиванием, возвращенным из API-интерфейса Cohere, чтобы я мог их сохранить. Причина в том, чтобы использовать их позже, а не пересчитывать.
Но что мне трудно, так это то, что каждый элемент res.embeddings.float для того, чтобы в качестве входных данных были заданы фразы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79145092/how-i-can-match-each-returned-embedding-with-the-text-i-gave-to-him-so-i-can-sav[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я не понимаю, почему в рамках Django REST мой сериализатор не сериализует файл, который я ему дал

Последнее сообщение Anonymous « 03 апр 2025, 09:49
Добавлено в форуме Javascript

Anonymous » 03 апр 2025, 09:49 » в форуме Javascript

Я не понимаю, почему в рамках Django Rest мой сериализатор не сериализует файл, который я дал ему
Я делаю такой запрос в моем файле Vue.js:
const formData = new FormData();
formData.append( file , file.value);
formData.append( amount_pages , +...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
03 апр 2025, 09:49
Загрузите непосредственно представление, возвращенное из контроллера, в ASP.NET Core 3.1 MVC.

Последнее сообщение Гость « 27 сен 2023, 15:48
Добавлено в форуме Jquery

Гость » 27 сен 2023, 15:48 » в форуме Jquery

После заполнения формы и нажатия кнопки загрузки вызывается следующий контроллер.

public async Task InvigilatorDiaryPrint (InvigilatorDiaryDTO invigilatorDiaryDTO) { var status =...

0 Ответы

33 Просмотры

Последнее сообщение Гость
27 сен 2023, 15:48
Возвращенное значение не имеет соответствующего декоратора сюжета

Последнее сообщение Anonymous « 30 апр 2025, 17:19
Добавлено в форуме Python

Anonymous » 30 апр 2025, 17:19 » в форуме Python

Я работаю над инди -скриптом для построения точек поворота, и я сталкиваюсь с ошибкой, которую я не могу понять. Скрипт вычисляет уровни поворота и возвращает их, но когда я пытаюсь включить Color.rgba () в оператор возврата, я получаю эту ошибку:...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 17:19
Возвращенное значение из Query ()-> num_row

Последнее сообщение Anonymous « 06 июн 2025, 10:56
Добавлено в форуме Php

Anonymous » 06 июн 2025, 10:56 » в форуме Php

Я не могу получить приведенный ниже запрос для запуска и возврата num_rows правильно. Независимо от того, что бывает, $ Query-> num_rows> 0 всегда возвращает false , даже если я ожидаю, что он вернет true . Есть идеи?
$post_id =...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
06 июн 2025, 10:56
Как я могу записать возвращенное значение из PHP в JavaScript с Ajax? [дублировать]

Последнее сообщение Anonymous « 25 июн 2025, 18:38
Добавлено в форуме Php

Anonymous » 25 июн 2025, 18:38 » в форуме Php

Я пытаюсь использовать Ajax для подключения кода JavaScript к моему PHP -коду. В настоящее время у меня есть следующий код:
js:
$.ajax({
type: POST ,
url: send.php ,
data: {data : jsonArr},

success: function(data){
// Log received values in...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
25 июн 2025, 18:38

Вернуться в «Python»

Programmiererforum