Проблема с чат-ботом на основе трансформатора, генерирующим бессвязные ответы

Проблема с чат-ботом на основе трансформатора, генерирующим бессвязные ответы ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с чат-ботом на основе трансформатора, генерирующим бессвязные ответы

Цитата

Сообщение Anonymous » 01 июн 2024, 18:46

Я разрабатываю чат-бота, используя библиотеку трансформеров Hugging Face. Предполагается, что бот определяет язык ввода (испанский, каталанский или английский) и реагирует соответствующим образом, используя предварительно обученные модели. Однако ответы часто бессвязны или содержат повторяющиеся символы.
Вот структура проекта:

Код: Выделить всё

pythonAI/
├── download.py
├── learner.py
├── main.py
├── model_old.py
├── modelos
│   ├── ca
│   │   ├── config.json
│   │   ├── generation_config.json
│   │   ├── merges.txt
│   │   ├── model.safetensors
│   │   ├── special_tokens_map.json
│   │   ├── tokenizer_config.json
│   │   ├── tokenizer.json
│   │   └── vocab.json
│   ├── en
│   │   ├── config.json
│   │   ├── generation_config.json
│   │   ├── merges.txt
│   │   ├── model.safetensors
│   │   ├── special_tokens_map.json
│   │   ├── tokenizer_config.json
│   │   ├── tokenizer.json
│   │   └── vocab.json
│   └── es
│       ├── config.json
│       ├── generation_config.json
│       ├── model.safetensors
│       ├── special_tokens_map.json
│       ├── tokenizer_config.json
│       ├── tokenizer.json
│       └── vocab.txt
├── model.py
├── nlp_processor.py
├── __pycache__
│   ├── learner.cpython-39.pyc
│   ├── model.cpython-39.pyc
│   ├── nlp_processor.cpython-39.pyc
│   └── search_engine.cpython-39.pyc
├── README.md
├── search_engine.py
└── utils.py

Вот соответствующий код:
nlp_processor.py для определения языка и предварительной обработки текста:

Код: Выделить всё

from langdetect import detect
import re

def detect_language(text):
try:
return detect(text)
except:
return 'unknown'

def preprocess_text(text):
text = re.sub(r'\s+', ' ', text).strip()
return text

model.py для загрузки моделей и генерации ответов:

Код: Выделить всё

from transformers import AutoModelForCausalLM, AutoTokenizer

class ChatModel:
def __init__(self):
self.models = {
'es': self.load_model('./modelos/es'),
'ca': self.load_model('./modelos/ca'),
'en': self.load_model('./modelos/en')
}

def load_model(self, model_path):
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
return model, tokenizer

def get_response(self, processed_input, lang):
model, tokenizer = self.models.get(lang, (None, None))
if model is None or tokenizer is None:
return "Estoy aprendiendo, pronto podré hablar en tu idioma.  Escríbeme en Español, catalán o inglés."

inputs = tokenizer.encode(processed_input, return_tensors='pt')
outputs = model.generate(inputs, max_length=50, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return response

main.py для координации работы чат-бота:

Код: Выделить всё

from nlp_processor import detect_language, preprocess_text
from model import ChatModel

def main():
chat_model = ChatModel()

while True:
user_input = input("Pregunta: ")
if user_input.lower() in ['salir', 'exit', 'quit']:
break

detected_lang = detect_language(user_input)
if detected_lang not in ['es', 'ca', 'en']:
detected_lang = 'unknown'

processed_input = preprocess_text(user_input)
response = chat_model.get_response(processed_input, detected_lang)

print(f"Chatbot: {response}")

if __name__ == "__main__":
main()

Пример проблемы:
Когда я ввожу «¿hombre o mujer?» чат-бот отвечает:

Код: Выделить всё

Chatbot: ¿ hombre o mujer? ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿lo??????????????????????????????????????

Я убедился, что модели правильно загружены и помещены в соответствующие каталоги.
Что может быть причиной этой проблемы и как я могу исправить?
Спасибо за помощь!
Вот конкретные проблемы, с которыми я столкнулся:
Ответы часто бессвязны.
Ответы содержат повторяющиеся символы или знаки препинания.
Действия, которые я предпринял:
Проверил целостность файлов модели.
Проверили версии трансформаторов, факела и других зависимостей.
Убедились, что токенизаторы правильно связаны с соответствующими моделями.
Среда:
Python 3.9
transformers 4.12.5
torch 1.10.0
langdetect 1.0.9
Я ищу органические ответы

Подробнее здесь: https://stackoverflow.com/questions/785 ... nt-answers

1717256797

Anonymous

Я разрабатываю чат-бота, используя библиотеку трансформеров Hugging Face. Предполагается, что бот определяет язык ввода (испанский, каталанский или английский) и реагирует соответствующим образом, используя предварительно обученные модели. Однако ответы часто бессвязны или содержат повторяющиеся символы.
Вот структура проекта:
[code]pythonAI/
├── download.py
├── learner.py
├── main.py
├── model_old.py
├── modelos
│   ├── ca
│   │   ├── config.json
│   │   ├── generation_config.json
│   │   ├── merges.txt
│   │   ├── model.safetensors
│   │   ├── special_tokens_map.json
│   │   ├── tokenizer_config.json
│   │   ├── tokenizer.json
│   │   └── vocab.json
│   ├── en
│   │   ├── config.json
│   │   ├── generation_config.json
│   │   ├── merges.txt
│   │   ├── model.safetensors
│   │   ├── special_tokens_map.json
│   │   ├── tokenizer_config.json
│   │   ├── tokenizer.json
│   │   └── vocab.json
│   └── es
│       ├── config.json
│       ├── generation_config.json
│       ├── model.safetensors
│       ├── special_tokens_map.json
│       ├── tokenizer_config.json
│       ├── tokenizer.json
│       └── vocab.txt
├── model.py
├── nlp_processor.py
├── __pycache__
│   ├── learner.cpython-39.pyc
│   ├── model.cpython-39.pyc
│   ├── nlp_processor.cpython-39.pyc
│   └── search_engine.cpython-39.pyc
├── README.md
├── search_engine.py
└── utils.py
[/code]
Вот соответствующий код:
nlp_processor.py для определения языка и предварительной обработки текста:
[code]from langdetect import detect
import re

def detect_language(text):
try:
return detect(text)
except:
return 'unknown'

def preprocess_text(text):
text = re.sub(r'\s+', ' ', text).strip()
return text
[/code]
model.py для загрузки моделей и генерации ответов:
[code]from transformers import AutoModelForCausalLM, AutoTokenizer

class ChatModel:
def __init__(self):
self.models = {
'es': self.load_model('./modelos/es'),
'ca': self.load_model('./modelos/ca'),
'en': self.load_model('./modelos/en')
}

def load_model(self, model_path):
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
return model, tokenizer

def get_response(self, processed_input, lang):
model, tokenizer = self.models.get(lang, (None, None))
if model is None or tokenizer is None:
return "Estoy aprendiendo, pronto podré hablar en tu idioma.  Escríbeme en Español, catalán o inglés."

inputs = tokenizer.encode(processed_input, return_tensors='pt')
outputs = model.generate(inputs, max_length=50, num_return_sequences=1, pad_token_id=tokenizer.eos_token_id)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return response
[/code]
main.py для координации работы чат-бота:
[code]from nlp_processor import detect_language, preprocess_text
from model import ChatModel

def main():
chat_model = ChatModel()

while True:
user_input = input("Pregunta: ")
if user_input.lower() in ['salir', 'exit', 'quit']:
break

detected_lang = detect_language(user_input)
if detected_lang not in ['es', 'ca', 'en']:
detected_lang = 'unknown'

processed_input = preprocess_text(user_input)
response = chat_model.get_response(processed_input, detected_lang)

print(f"Chatbot: {response}")

if __name__ == "__main__":
main()
[/code]
Пример проблемы:
Когда я ввожу «¿hombre o mujer?» чат-бот отвечает:
[code]Chatbot: ¿ hombre o mujer? ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿ ¿lo??????????????????????????????????????
[/code]
Я убедился, что модели правильно загружены и помещены в соответствующие каталоги.
Что может быть причиной этой проблемы и как я могу исправить?
Спасибо за помощь!
Вот конкретные проблемы, с которыми я столкнулся:
Ответы часто бессвязны.
Ответы содержат повторяющиеся символы или знаки препинания.
Действия, которые я предпринял:
Проверил целостность файлов модели.
Проверили версии трансформаторов, факела и других зависимостей.
Убедились, что токенизаторы правильно связаны с соответствующими моделями.
Среда:
Python 3.9
transformers 4.12.5
torch 1.10.0
langdetect 1.0.9
Я ищу органические ответы 

Подробнее здесь: [url]https://stackoverflow.com/questions/78564233/issue-with-transformer-based-chatbot-generating-incoherent-answers[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Пользовательская модель чат-бота на основе трансформатора не генерирует действительные ответы

Последнее сообщение Anonymous « 01 июл 2024, 13:26
Добавлено в форуме Python

Anonymous » 01 июл 2024, 13:26 » в форуме Python

В настоящее время я работаю над созданием собственного чат-бота с использованием модели на основе Transformer для личного проекта. Несмотря на то, что я пробовал использовать разные гиперпараметры, корректировать эпохи и увеличивать размер набора...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 13:26
Пользовательская модель чат-бота на основе трансформатора не генерирует действительные ответы

Последнее сообщение Anonymous « 01 июл 2024, 16:33
Добавлено в форуме Python

Anonymous » 01 июл 2024, 16:33 » в форуме Python

В настоящее время я работаю над созданием собственного чат-бота с использованием модели на основе Transformer для личного проекта. Несмотря на то, что я пробовал использовать разные гиперпараметры, корректировать эпохи и увеличивать размер набора...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 16:33
Проблемы с чат-ботом Telegram. Чат не найден, хотя он есть

Последнее сообщение Anonymous « 01 дек 2024, 22:34
Добавлено в форуме Python

Anonymous » 01 дек 2024, 22:34 » в форуме Python

Бот — это первый бот, который общается с менеджером рассылки, а бот-спам — это бот, в котором происходит рассылка.
def step5(message):
global p
conn = sqlite3.connect('../chatgpt_database.db')
cursor = conn.cursor()
cursor.execute( SELECT tid FROM...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 22:34
Проблемы с чат-ботом Telegram. Чат не найден, хотя он есть

Последнее сообщение Anonymous « 02 дек 2024, 01:48
Добавлено в форуме Python

Anonymous » 02 дек 2024, 01:48 » в форуме Python

Бот — это первый бот, который общается с менеджером рассылки, а бот-спам — это бот, в котором происходит рассылка.
def step5(message):
global p
conn = sqlite3.connect('../chatgpt_database.db')
cursor = conn.cursor()
cursor.execute( SELECT tid FROM...

0 Ответы

43 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 01:48
Проблема с генеративным чат-ботом НЛП

Последнее сообщение Anonymous « 20 ноя 2024, 12:36
Добавлено в форуме Python

Anonymous » 20 ноя 2024, 12:36 » в форуме Python

Я пытаюсь создать генеративного чат-бота, пройдя курс НЛП Codecademy. Я выполнил все инструкции курса, но получаю только повторяющиеся ответы типа «Твой дедушка» или «Какие дедушки».
Ответы в стиле поиска работают нормально, просто порождающий...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 12:36

Вернуться в «Python»