Модели Langchain gpt-3.5-turbo читают файлы – проблема

Модели Langchain gpt-3.5-turbo читают файлы – проблема ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модели Langchain gpt-3.5-turbo читают файлы – проблема

Цитата

Сообщение Anonymous » 08 ноя 2024, 19:04

Я делаю очень простой (и для развлечения) проект LangChain.
Модель может читать PDF-файл, а затем я могу задавать ему вопросы о конкретном PDF-файле.Все работает нормально (это рабочий пример)

Код: Выделить всё

from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import ElasticVectorSearch, Pinecone, Weaviate, FAISS

from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI

import os
os.environ["OPENAI_API_KEY"] = ""

reader = PdfReader('./2023_GPT4All_Technical_Report.pdf')

raw_text = ''
for i, page in enumerate(reader.pages):
text = page.extract_text()
if text:
raw_text += text

raw_text[:100]

text_splitter = CharacterTextSplitter(
separator = "\n",
chunk_size = 1000,
chunk_overlap  = 200,
length_function = len,
)
texts = text_splitter.split_text(raw_text)

embeddings = OpenAIEmbeddings(model='gpt-3.5-turbo')
docsearch = FAISS.from_texts(texts, embeddings)

chain = load_qa_chain(OpenAI(), chain_type="stuff")

query = "Who is the author of the book?"
docs = docsearch.similarity_search(query)
res = chain.run(input_documents=docs, question=query)

print(res)

В чем я вижу проблему:
Если я задаю простой вопрос, например, сколько будет 2+2 он не знает.. Как я потеряла все знания модели? Есть ли обходной путь, когда модель уже имеет существующие знания, а я просто добавляю знания о конкретном PDF-файле?
Спасибо всем за ответы, и я надеюсь, что хорошее преобразование начнется с моего вопроса..
Также было бы здорово предложить предложения!

Подробнее здесь: https://stackoverflow.com/questions/760 ... es-problem

1731081874

Anonymous

Я делаю очень простой (и для развлечения) проект LangChain.
Модель может читать PDF-файл, а затем я могу задавать ему вопросы о конкретном PDF-файле.Все работает нормально ([b]это рабочий пример[/b])
[code]from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import ElasticVectorSearch, Pinecone, Weaviate, FAISS

from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI

import os
os.environ["OPENAI_API_KEY"] = ""

reader = PdfReader('./2023_GPT4All_Technical_Report.pdf')

raw_text = ''
for i, page in enumerate(reader.pages):
text = page.extract_text()
if text:
raw_text += text

raw_text[:100]

text_splitter = CharacterTextSplitter(
separator = "\n",
chunk_size = 1000,
chunk_overlap  = 200,
length_function = len,
)
texts = text_splitter.split_text(raw_text)

embeddings = OpenAIEmbeddings(model='gpt-3.5-turbo')
docsearch = FAISS.from_texts(texts, embeddings)

chain = load_qa_chain(OpenAI(), chain_type="stuff")

query = "Who is the author of the book?"
docs = docsearch.similarity_search(query)
res = chain.run(input_documents=docs, question=query)

print(res)
[/code]
[b]В чем я вижу проблему:[/b]
Если я задаю простой вопрос, например, сколько будет 2+2 он не знает.. Как я потеряла все знания модели? Есть ли обходной путь, когда модель уже имеет существующие знания, а я просто добавляю знания о конкретном PDF-файле?
Спасибо всем за ответы, и я надеюсь, что хорошее преобразование начнется с моего вопроса.. 
Также было бы здорово предложить предложения! 

Подробнее здесь: [url]https://stackoverflow.com/questions/76085064/langchain-gpt-3-5-turbo-models-reads-files-problem[/url]