Чат-бот пропускает части резюме (с использованием модели Олламы gemma2:2b)

Чат-бот пропускает части резюме (с использованием модели Олламы gemma2:2b) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Чат-бот пропускает части резюме (с использованием модели Олламы gemma2:2b)

Цитата

Сообщение Anonymous » 17 окт 2024, 07:12

Я работаю над чат-ботом с искусственным интеллектом, который должен отвечать на основе моего резюме. Я экспериментировал как с Gemma2:2b, так и с Mistral, но постоянно сталкиваюсь с одной и той же проблемой с обеими моделями: кажется, они «пропускают» определенные части резюме при ответе на запросы.
Мне интересно, может ли эта проблема быть связана с тем, как я обрабатываю резюме (которое находится в формате PDF), или это связано с используемым мной входным конвейером. Я попробовал настроить PDF-файл, и, похоже, проблема была решена, но она все еще сохраняется.
Соответствующие части моего кода:
pdf_handling.py

Код: Выделить всё

import argparse
import os
import shutil
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema.document import Document
from get_embedding_function import get_embedding_function
from langchain_chroma import Chroma

def main():
parser = argparse.ArgumentParser()
parser.add_argument("--reset", action = "store_true", help = "Reset the database.")
args = parser.parse_args()
if args.reset:
print("✨ Clearing Database")
clear_database()

documents = load_document()
chunks = split_documents(documents)
add_to_chroma(chunks)

def load_document():
document_loader = PyPDFLoader("Resume.pdf")
return document_loader.load()

def split_documents(documents: list[Document]):
text_splitter = RecursiveCharacterTextSplitter(
chunk_size = 800,
chunk_overlap = 80,
length_function = len,
is_separator_regex = False,
)
return text_splitter.split_documents(documents)

def add_to_chroma(chunks: list[Document]):
db_directory = "my_chroma_data"
db_path = os.path.join(db_directory, "chroma.sqlite3")

os.makedirs(db_directory, exist_ok=True)

db = Chroma(
persist_directory=db_directory,
embedding_function=get_embedding_function()
)

chunks_with_ids = calculate_chunk_ids(chunks)

existing_items = db.get(include=[])
existing_ids = set(existing_items["ids"])
print(f"Number of existing documents in DB: {len(existing_ids)}")

new_chunks = []
for chunk in chunks_with_ids:
if chunk.metadata["id"] not in existing_ids:
new_chunks.append(chunk)

if len(new_chunks):
print(f"👉 Adding new documents: {len(new_chunks)}")
new_chunk_ids = [chunk.metadata["id"] for chunk in new_chunks]
db.add_documents(new_chunks, ids=new_chunk_ids)
else:
print("✅ No new documents to add")

def calculate_chunk_ids(chunks):

last_page_id = None
current_chunk_index = 0

for chunk in chunks:
source = chunk.metadata.get("source")
page = chunk.metadata.get("page")
current_page_id = f"{source}:{page}"

if current_page_id == last_page_id:
current_chunk_index += 1
else:
current_chunk_index = 0

chunk_id = f"{current_page_id}:{current_chunk_index}"
last_page_id = current_page_id

chunk.metadata["id"] = chunk_id

return chunks

def clear_database():
db_path = "my_chroma_data/chroma.sqlite3"
if os.path.exists(db_path):
shutil.rmtree(os.path.dirname(db_path))
print(f"✨ Database at {db_path} has been cleared.")
else:
print("⚠️ No database found to clear.")

if __name__ == "__main__":
main()

chatboy.py

Код: Выделить всё

import os
from langchain_chroma import Chroma  # Updated import
from langchain.prompts import ChatPromptTemplate
from langchain_community.llms.ollama import Ollama
from get_embedding_function import get_embedding_function

PROMPT_TEMPLATE = """
You're roleplaying as Maximiliano López Montaño, based on what the resume says.

This is the resume: {context}

---

Answer the question based on the above context: {question}
"""

def main():
print("Welcome to the chatbot! Type 'exit' to quit.")

while True:
query_text = input("You: ")

if query_text.lower() == 'exit':
print("Goodbye!")
break

response = query_rag(query_text)
print(f"AI: {response}")

def query_rag(query_text: str):
embedding_function = get_embedding_function()

persist_directory = "my_chroma_data"
db_path = os.path.join(persist_directory, "chroma.sqlite3")

if not os.path.exists(db_path):
print("⚠️ Database not found. Please run pdf_handling.py to create the database.")
return "No data available."

db = Chroma(persist_directory=persist_directory, embedding_function=embedding_function)

results = db.similarity_search_with_score(query_text, k=5)

context_text = "\n\n---\n\n".join([doc.page_content for doc, _score in results])
prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
prompt = prompt_template.format(context=context_text, question=query_text)

model = Ollama(model="gemma2:2b")
response_text = model.invoke(prompt)

formatted_response = f"{response_text}"
return formatted_response

if __name__ == "__main__":
main()

В чем может заключаться проблема? Какие улучшения я могу внести?
При необходимости я также могу поделиться PDF-файлом.

Подробнее здесь: https://stackoverflow.com/questions/790 ... a22b-model

1729138361

Anonymous

Я работаю над чат-ботом с искусственным интеллектом, который должен отвечать на основе моего резюме. Я экспериментировал как с Gemma2:2b, так и с Mistral, но постоянно сталкиваюсь с одной и той же проблемой с обеими моделями: кажется, они «пропускают» определенные части резюме при ответе на запросы.
Мне интересно, может ли эта проблема быть связана с тем, как я обрабатываю резюме (которое находится в формате PDF), или это связано с используемым мной входным конвейером.  Я попробовал настроить PDF-файл, и, похоже, проблема была решена, но она все еще сохраняется.
Соответствующие части моего кода:
pdf_handling.py
[code]import argparse
import os
import shutil
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema.document import Document
from get_embedding_function import get_embedding_function
from langchain_chroma import Chroma

def main():
parser = argparse.ArgumentParser()
parser.add_argument("--reset", action = "store_true", help = "Reset the database.")
args = parser.parse_args()
if args.reset:
print("✨ Clearing Database")
clear_database()

documents = load_document()
chunks = split_documents(documents)
add_to_chroma(chunks)

def load_document():
document_loader = PyPDFLoader("Resume.pdf")
return document_loader.load()

def split_documents(documents: list[Document]):
text_splitter = RecursiveCharacterTextSplitter(
chunk_size = 800,
chunk_overlap = 80,
length_function = len,
is_separator_regex = False,
)
return text_splitter.split_documents(documents)

def add_to_chroma(chunks: list[Document]):
db_directory = "my_chroma_data"
db_path = os.path.join(db_directory, "chroma.sqlite3")

os.makedirs(db_directory, exist_ok=True)

db = Chroma(
persist_directory=db_directory,
embedding_function=get_embedding_function()
)

chunks_with_ids = calculate_chunk_ids(chunks)

existing_items = db.get(include=[])
existing_ids = set(existing_items["ids"])
print(f"Number of existing documents in DB: {len(existing_ids)}")

new_chunks = []
for chunk in chunks_with_ids:
if chunk.metadata["id"] not in existing_ids:
new_chunks.append(chunk)

if len(new_chunks):
print(f"👉 Adding new documents: {len(new_chunks)}")
new_chunk_ids = [chunk.metadata["id"] for chunk in new_chunks]
db.add_documents(new_chunks, ids=new_chunk_ids)
else:
print("✅ No new documents to add")

def calculate_chunk_ids(chunks):

last_page_id = None
current_chunk_index = 0

for chunk in chunks:
source = chunk.metadata.get("source")
page = chunk.metadata.get("page")
current_page_id = f"{source}:{page}"

if current_page_id == last_page_id:
current_chunk_index += 1
else:
current_chunk_index = 0

chunk_id = f"{current_page_id}:{current_chunk_index}"
last_page_id = current_page_id

chunk.metadata["id"] = chunk_id

return chunks

def clear_database():
db_path = "my_chroma_data/chroma.sqlite3"
if os.path.exists(db_path):
shutil.rmtree(os.path.dirname(db_path))
print(f"✨ Database at {db_path} has been cleared.")
else:
print("⚠️ No database found to clear.")

if __name__ == "__main__":
main()
[/code]
chatboy.py
[code]import os
from langchain_chroma import Chroma  # Updated import
from langchain.prompts import ChatPromptTemplate
from langchain_community.llms.ollama import Ollama
from get_embedding_function import get_embedding_function

PROMPT_TEMPLATE = """
You're roleplaying as Maximiliano López Montaño, based on what the resume says.

This is the resume: {context}

---

Answer the question based on the above context: {question}
"""

def main():
print("Welcome to the chatbot! Type 'exit' to quit.")

while True:
query_text = input("You: ")

if query_text.lower() == 'exit':
print("Goodbye!")
break

response = query_rag(query_text)
print(f"AI: {response}")

def query_rag(query_text: str):
embedding_function = get_embedding_function()

persist_directory = "my_chroma_data"
db_path = os.path.join(persist_directory, "chroma.sqlite3")

if not os.path.exists(db_path):
print("⚠️ Database not found. Please run pdf_handling.py to create the database.")
return "No data available."

db = Chroma(persist_directory=persist_directory, embedding_function=embedding_function)

results = db.similarity_search_with_score(query_text, k=5)

context_text = "\n\n---\n\n".join([doc.page_content for doc, _score in results])
prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
prompt = prompt_template.format(context=context_text, question=query_text)

model = Ollama(model="gemma2:2b")
response_text = model.invoke(prompt)

formatted_response = f"{response_text}"
return formatted_response

if __name__ == "__main__":
main()
[/code]
В чем может заключаться проблема? Какие улучшения я могу внести?
При необходимости я также могу поделиться PDF-файлом. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79071486/chatbot-skipping-parts-of-resume-using-ollamas-gemma22b-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Музыкальный бот Discord, когда я пропускаю трек, бот пропускает сразу 2 трека

Последнее сообщение Anonymous « 04 ноя 2024, 06:29
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 06:29 » в форуме Python

Ситуация и проблема:
Я проигрываю песню и создаю список песен, которые будут воспроизводиться. После этого я использую >skip, попадаю в play_music, попадаю в self.vc.play и там запускаю после =, когда предыдущая песня закончилась из-за того, что я >...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 06:29
Href не работает для резюме. Я пытаюсь просмотреть резюме, используя его, но он показывает неверную страницу.

Последнее сообщение Anonymous « 01 июл 2024, 10:26
Добавлено в форуме Jquery

Anonymous » 01 июл 2024, 10:26 » в форуме Jquery

Я пытаюсь получить папку резюме, чтобы просмотреть резюме, но оно не отображается в моей базе данных. Я использовал reumse_path для столбца резюме
data.forEach(app => {
let appHtml = `

Job Title: ${app.job_title}
Candidate Name: ${app.name}
Email:...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 10:26
Href не работает для резюме. Я пытаюсь просмотреть резюме, используя его, но он показывает неверную страницу.

Последнее сообщение Anonymous « 01 июл 2024, 19:13
Добавлено в форуме Jquery

Anonymous » 01 июл 2024, 19:13 » в форуме Jquery

Я пытаюсь получить папку резюме, чтобы просмотреть резюме, но оно не отображается в моей базе данных. Я использовал reumse_path для столбца резюме
data.forEach(app => {
let appHtml = `

Job Title: ${app.job_title}
Candidate Name: ${app.name}
Email:...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 19:13
Требуется ли составлять резюме, если я использую резюме по сетке поиска?

Последнее сообщение Anonymous « 17 сен 2024, 11:43
Добавлено в форуме Python

Anonymous » 17 сен 2024, 11:43 » в форуме Python

Я использую поиск по сетке для гипернастройки своего алгоритма в ML. У меня есть сомнение. Если я использую резюме для поиска по сетке, обязательно ли позже использовать перекрестную проверку?
Поскольку поиск по сетке также выполняет перекрестную...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 11:43
Пустой ответ от олламы на просьбу написать файл python hello world [закрыто]

Последнее сообщение Anonymous « 23 окт 2024, 08:15
Добавлено в форуме Python

Anonymous » 23 окт 2024, 08:15 » в форуме Python

Я запустил это:
fabric -p generate_python_code -o generated_script.py
и получил:
empty response
Вот шаблон:
more /Users/andrewtriboletti/.config/fabric/patterns/generate_python_code/system.md
System
You are a helpful assistant that writes...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 08:15

Вернуться в «Python»