IndexError: индекс выходит за пределы диапазона при обучении модели динамического встраивания слов (DWB)

IndexError: индекс выходит за пределы диапазона при обучении модели динамического встраивания слов (DWB) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

IndexError: индекс выходит за пределы диапазона при обучении модели динамического встраивания слов (DWB)

Цитата

Сообщение Anonymous » 14 дек 2024, 16:51

Я новичок в анализе текста и в настоящее время изучаю методы динамического встраивания слов (DWB). При запуске кодов репликации из этого блокнота Kaggle во время обучения я столкнулся со следующей ошибкой:

Код: Выделить всё

IndexError: index out of range in self

Я использую набор данных общих дебатов Организации Объединенных Наций, доступный здесь.
Ниже приведен код, который я запустил:

Код: Выделить всё

pip install git+https://github.com/llefebure/dynamic_bernoulli_embeddings.git

Код: Выделить всё

import pickle

import re

import numpy as np
import pandas as pd
from dynamic_bernoulli_embeddings.analysis import DynamicEmbeddingAnalysis
from dynamic_bernoulli_embeddings.training import train_model
from nltk import word_tokenize as nltk_word_tokenize
from gensim.corpora import Dictionary
from tqdm.notebook import tqdm
tqdm.pandas()

Код: Выделить всё

def _bad_word(word):
if len(word) < 2:
return True
if any(c.isdigit() for c in word):
return True
if "/" in word:
return True
return False

def word_tokenize(text):
text = re.sub(r"co-operation", "cooperation", text)
text = re.sub(r"-", " ", text)
words = [w.lower().strip("'.") for w in nltk_word_tokenize(text)]
words = [w for w in words if not _bad_word(w)]
return words

Код: Выделить всё

dataset = pd.read_csv(".../un-general-debates.csv")
dataset["bow"] = dataset.text.progress_apply(word_tokenize)
dataset["time"] = dataset.year - dataset.year.min()

Код: Выделить всё

dictionary = Dictionary(dataset.bow)
dictionary.filter_extremes(no_below=10, no_above=1.)
dictionary.compactify()
print(len(dictionary))

Код: Выделить всё

model, loss_history = train_model(
dataset, dictionary.token2id, validation=0.1, num_epochs=6, k=100, notebook=True)

Что я пробовал:

Проверил, что набор данных загружен правильно и токенизирован, как предполагалось.
Проверил, что объект Dictionary создан правильно.
Искал похожие проблемы, связанные с «индексом вне диапазона», но не смог найти конкретного решения к динамическому внедрению слов (DWB).

Вопросы:
Что вызывает ошибку IndexError: индекс выходит за пределы диапазона самостоятельно во время обучения?
Как устранить эту проблему ?
Будем очень признательны за любую помощь или предложения. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/792 ... dding-mode

1734184292

Anonymous

Я новичок в анализе текста и в настоящее время изучаю методы динамического встраивания слов (DWB). При запуске кодов репликации из этого блокнота Kaggle во время обучения я столкнулся со следующей ошибкой:
[code]IndexError: index out of range in self
[/code]
Я использую набор данных общих дебатов Организации Объединенных Наций, доступный здесь.
Ниже приведен код, который я запустил:
[code]pip install git+https://github.com/llefebure/dynamic_bernoulli_embeddings.git
[/code]
[code]import pickle

import re

import numpy as np
import pandas as pd
from dynamic_bernoulli_embeddings.analysis import DynamicEmbeddingAnalysis
from dynamic_bernoulli_embeddings.training import train_model
from nltk import word_tokenize as nltk_word_tokenize
from gensim.corpora import Dictionary
from tqdm.notebook import tqdm
tqdm.pandas()
[/code]
[code]def _bad_word(word):
if len(word) < 2:
return True
if any(c.isdigit() for c in word):
return True
if "/" in word:
return True
return False

def word_tokenize(text):
text = re.sub(r"co-operation", "cooperation", text)
text = re.sub(r"-", " ", text)
words = [w.lower().strip("'.") for w in nltk_word_tokenize(text)]
words = [w for w in words if not _bad_word(w)]
return words
[/code]
[code]dataset = pd.read_csv(".../un-general-debates.csv")
dataset["bow"] = dataset.text.progress_apply(word_tokenize)
dataset["time"] = dataset.year - dataset.year.min()
[/code]
[code]dictionary = Dictionary(dataset.bow)
dictionary.filter_extremes(no_below=10, no_above=1.)
dictionary.compactify()
print(len(dictionary))
[/code]
[code]model, loss_history = train_model(
dataset, dictionary.token2id, validation=0.1, num_epochs=6, k=100, notebook=True)
[/code]
Что я пробовал:
[list]
[*]Проверил, что набор данных загружен правильно и токенизирован, как предполагалось.
Проверил, что объект Dictionary создан правильно.
[*]Искал похожие проблемы, связанные с «индексом вне диапазона», но не смог найти конкретного решения к динамическому внедрению слов (DWB).
[/list]
Вопросы:
Что вызывает ошибку IndexError: индекс выходит за пределы диапазона самостоятельно во время обучения?
Как устранить эту проблему ?
Будем очень признательны за любую помощь или предложения. Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79280737/indexerror-index-out-of-range-in-self-when-training-dynamic-word-embedding-mode[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

IndexError: индекс выходит за пределы диапазона при обучении модели динамического встраивания слов (DWB)

Последнее сообщение Anonymous « 15 дек 2024, 15:24
Добавлено в форуме Python

Anonymous » 15 дек 2024, 15:24 » в форуме Python

Я новичок в анализе текста и в настоящее время изучаю методы динамического встраивания слов (DWB). При запуске кодов репликации из этого блокнота Kaggle во время обучения я столкнулся со следующей ошибкой:
IndexError: index out of range in self

Я...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
15 дек 2024, 15:24
Исключение «Индекс Unity3D вне диапазона»: индекс массива выходит за пределы диапазона (попытка изменить спрайт при нажа

Последнее сообщение Anonymous « 13 ноя 2024, 19:02
Добавлено в форуме C#

Anonymous » 13 ноя 2024, 19:02 » в форуме C#

Доброе утро, разработчики. Я знаю, что этот вопрос задавался раньше, но я не нашел решения своей проблемы в этих ответах. Сначала я хотел бы сказать вам, что я всего лишь новичок в Unity :p, ну, вот моя проблема: я создаю игру с разбиванием...

0 Ответы

41 Просмотры

Последнее сообщение Anonymous
13 ноя 2024, 19:02
IndexError: индекс списка выходит за пределы диапазона при доступе по ssh [закрыто]

Последнее сообщение Anonymous « 27 сен 2024, 00:00
Добавлено в форуме Python

Anonymous » 27 сен 2024, 00:00 » в форуме Python

Здравствуйте!
У меня есть ошибка в коде Python, который выполняет доступ по SSH на одном из моих устройств и возвращает целое значение с количеством людей, подключенных к виртуальной локальной сети. Однако, если к этой виртуальной локальной сети...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 00:00
IndexError: индекс списка выходит за пределы диапазона при выполнении _get_start_solution в проблеме маршрутизации транс

Последнее сообщение Anonymous « 19 окт 2024, 01:33
Добавлено в форуме Python

Anonymous » 19 окт 2024, 01:33 » в форуме Python

Я работаю над реализацией задачи маршрутизации транспортных средств и сталкиваюсь с ошибкой IndexError при выполнении функции _get_start_solution. Ошибка возникает во время окончательного оператора печати решения.
Подробности:
У меня в экземпляре 30...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
19 окт 2024, 01:33
IndexError: индекс списка выходит за пределы диапазона при выполнении _get_start_solution в проблеме маршрутизации транс

Последнее сообщение Anonymous « 19 окт 2024, 03:46
Добавлено в форуме Python

Anonymous » 19 окт 2024, 03:46 » в форуме Python

Я работаю над реализацией задачи маршрутизации транспортных средств и сталкиваюсь с ошибкой IndexError при выполнении функции _get_start_solution. Ошибка возникает во время окончательного оператора печати решения.
Подробности:
У меня в экземпляре 30...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
19 окт 2024, 03:46

Вернуться в «Python»