Как добавить индекс в Python faiss постепенно

Как добавить индекс в Python faiss постепенно ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как добавить индекс в Python faiss постепенно

Цитата

Сообщение Anonymous » 30 янв 2025, 20:14

Я использую FAISS для индексации своих огромных наборов данных, внедряя, сгенерированную из модели BERT. Я хочу добавить встраивание постепенно, они работают нормально, если я добавлю его с faiss.indexflatl2, но проблема в том, что он сохраняет его размер слишком велик.
, поэтому я попробовал с faiss.indexivfpq, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но Он должен обучать встраивания, прежде чем я добавлю данные, поэтому я не могу добавить их постепенно, я должен сначала вычислить все встроения, а затем тренироваться и добавить их, у него возникают проблемы, потому что все данные должны храниться в оперативной памяти, пока я не напишу Полем Есть ли способ сделать это постепенно.
Вот мой код: < /p>
# It is working fine when using with IndexFlatL2
def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.index = faiss.IndexFlatL2(768)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
for i, (toks, embs) in enumerate(tqdm(result)):
# initialize all_embeddings for every new sentence (INCREMENTALLY)
all_embeddings = []
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings) # Add embeddings after every sentence
self.index.add(all_embeddings)

faiss.write_index(self.index, "faiss_Model")
< /code>
и при использовании с Indexivfpq: < /p>
def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.quantizer = faiss.IndexFlatL2(768)
self.index = faiss.IndexIVFPQ(self.quantizer, 768, 1000, 16, 8)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
all_embeddings = []
for i, (toks, embs) in enumerate(tqdm(result)):
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings)
self.index.train(all_embeddings) # Train
self.index.add(all_embeddings) # Add to index
faiss.write_index(self.index, "faiss_Model_mini")

Подробнее здесь: https://stackoverflow.com/questions/699 ... rementally

1738257263

Anonymous

 Я использую FAISS для индексации своих огромных наборов данных, внедряя, сгенерированную из модели BERT. Я хочу добавить встраивание постепенно, они работают нормально, если я добавлю его с faiss.indexflatl2, но проблема в том, что он сохраняет его размер слишком велик.
, поэтому я попробовал с faiss.indexivfpq, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но, но Он должен обучать встраивания, прежде чем я добавлю данные, поэтому я не могу добавить их постепенно, я должен сначала вычислить все встроения, а затем тренироваться и добавить их, у него возникают проблемы, потому что все данные должны храниться в оперативной памяти, пока я не напишу Полем Есть ли способ сделать это постепенно.
Вот мой код: < /p>
    # It is working fine when using with IndexFlatL2
def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.index = faiss.IndexFlatL2(768)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
for i, (toks, embs) in enumerate(tqdm(result)):
# initialize all_embeddings for every new sentence (INCREMENTALLY)
all_embeddings = []
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings) # Add embeddings after every sentence
self.index.add(all_embeddings)

faiss.write_index(self.index, "faiss_Model")
< /code>
и при использовании с Indexivfpq: < /p>
   def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.quantizer = faiss.IndexFlatL2(768)
self.index = faiss.IndexIVFPQ(self.quantizer, 768, 1000, 16, 8)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
all_embeddings = []
for i, (toks, embs) in enumerate(tqdm(result)):
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings)
self.index.train(all_embeddings) # Train
self.index.add(all_embeddings) # Add to index
faiss.write_index(self.index, "faiss_Model_mini")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/69938317/how-to-add-index-to-python-faiss-incrementally[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как добавить индекс в Python faiss постепенно

Последнее сообщение Anonymous « 01 июл 2025, 12:02
Добавлено в форуме Python

Anonymous » 01 июл 2025, 12:02 » в форуме Python

Я использую FAISS для индексации своих огромных наборов данных, внедряя, сгенерированную из модели BERT. Я хочу добавить встроенные встраивания постепенно, он работает нормально, если я добавляю его только с faiss.indexflatl2 Следует держать в...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
01 июл 2025, 12:02
IndexError: индекс списка выходит за пределы диапазона в FAISS.from_documents

Последнее сообщение Anonymous « 06 мар 2024, 09:52
Добавлено в форуме Python

Anonymous » 06 мар 2024, 09:52 » в форуме Python

I'm encountering an error when using LangChain's FAISS module to build a vector index from a list of documents. Specifically, I'm getting an IndexError: list index out of range on the line where I call FAISS.from_documents(docs, embeddings).

My...

0 Ответы

73 Просмотры

Последнее сообщение Anonymous
06 мар 2024, 09:52
IndexError: индекс списка выходит за пределы диапазона в FAISS.from_documents

Последнее сообщение Anonymous « 06 мар 2024, 15:43
Добавлено в форуме Python

Anonymous » 06 мар 2024, 15:43 » в форуме Python

I'm encountering an error when using LangChain's FAISS module to build a vector index from a list of documents. Specifically, I'm getting an IndexError: list index out of range on the line where I call FAISS.from_documents(docs, embeddings).

My...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
06 мар 2024, 15:43
Langchain Faiss searnity_search возвращает пустой список, несмотря на населенный индекс

Последнее сообщение Anonymous « 26 июл 2025, 04:45
Добавлено в форуме Python

Anonymous » 26 июл 2025, 04:45 » в форуме Python

Я пытаюсь использовать Langchain с Faiss, чтобы построить простой ретривер документа. Я проиндексировал несколько документов, но когда я называю searnity_search , я всегда получаю пустой список.from langchain.embeddings.openai import...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
26 июл 2025, 04:45
Как постепенно добавить строки в DataFrame Pandas?

Последнее сообщение Anonymous « 18 июл 2025, 16:07
Добавлено в форуме Python

Anonymous » 18 июл 2025, 16:07 » в форуме Python

Я вычисляю открытый низкий уровень закрытия (OHLC) данных в течение продолжительности каждых 15 минут с 9:15 до 15:30 и хочу сохранить значения OHLC в DataFrame в каждой новой строке.

ohlc = pd.DataFrame(columns=('Open','High','Low','Close'))
for...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 16:07

Вернуться в «Python»