Проблемы реализации сглаживания Гуда-Тьюринга

Проблемы реализации сглаживания Гуда-Тьюринга ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы реализации сглаживания Гуда-Тьюринга

Цитата

Сообщение Anonymous » 05 ноя 2024, 18:09

Я хочу реализовать метод сглаживания Гуда-Тьюринга, который улучшит мою языковую модель.

Давайте начнем с теории (для простоты рассмотрим модель униграммы).

Есть корпус (например, литературное произведение или любой большой текст). С его помощью мы строим языковую модель. После того, как мы его построили, мы можем найти вероятность появления слова. Эту модель я создал с помощью MLE (оценка максимального правдоподобия) с высоким значением недоумения (значение качества построенной модели, высокое значение — плохо).

Я нашел способ улучшить его с помощью сглаживания Гуда-Тьюринга:

[img]https://i.sstatic .net/8X20F.gif[/img]

Здесь:

Код: Выделить всё

P - the probability of use of the word
c - the number of use of the word
N_c - the count words with a frequency - c
N - the count words in the corpus

Мой код на Python 3:

Код: Выделить всё

def good_turing(tokens):
N = len(tokens) + 1
C = Counter(tokens)
N_c = Counter(list(C.values()))
assert(N == sum([k * v for k, v in N_c.items()]))
default_value = N_c[1] / N
model = defaultdict(lambda: default_value)
types = C.keys()
B = len(types)
for _type in types:
c = C[_type]
model[_type] = (c + 1) * N_c[c + 1] / (N_c[c] * N) # Exception - "math domain error"
return model

Здесь проблемы:

слово с частота c + 1 не может быть в корпусе, поэтому мы пытаемся
взять log(0) и получить Math Domain Error
как рассчитать вероятность наиболее часто используемого слова после сглаживания?

После прочитав несколько статей, мое изучение этой темы пришло к построению следующих формул:

[img]https://i.sstatic .net/LuTFg.gif[/img]

Итак, главный вопрос: как получить эту функцию E ?
Я нашел это:

но я не знаю, как искать коэффициенты a и b в scipy или т. д.

Подробнее здесь: https://stackoverflow.com/questions/396 ... n-problems

1730819393

Anonymous

Я хочу реализовать метод сглаживания Гуда-Тьюринга, который улучшит мою языковую модель.

Давайте начнем с теории (для простоты рассмотрим модель униграммы). 

Есть корпус (например, литературное произведение или любой большой текст). С его помощью мы строим языковую модель. После того, как мы его построили, мы можем найти вероятность появления слова. Эту модель я создал с помощью MLE (оценка максимального правдоподобия) с высоким значением недоумения (значение качества построенной модели, высокое значение — плохо).

Я нашел способ улучшить его с помощью сглаживания Гуда-Тьюринга:

[img]https://i.sstatic .net/8X20F.gif[/img]


[img]https://i.sstatic.net/YNI0t. gif[/img]


Здесь: 

[code]P - the probability of use of the word
c - the number of use of the word
N_c - the count words with a frequency - c
N - the count words in the corpus
[/code]

Мой код на Python 3:

[code]def good_turing(tokens):
N = len(tokens) + 1
C = Counter(tokens)
N_c = Counter(list(C.values()))
assert(N == sum([k * v for k, v in N_c.items()]))
default_value = N_c[1] / N
model = defaultdict(lambda: default_value)
types = C.keys()
B = len(types)
for _type in types:
c = C[_type]
model[_type] = (c + 1) * N_c[c + 1] / (N_c[c] * N) # Exception - "math domain error"
return model
[/code]

Здесь проблемы:

[list]
[*][b]слово с частота c + 1 не может быть в корпусе[/b], поэтому мы пытаемся
взять log(0) и получить Math Domain Error
[*]как рассчитать [b]вероятность наиболее часто используемого слова[/b] после сглаживания?
[/list]

После прочитав несколько статей, мое изучение этой темы пришло к построению следующих формул:

[img]https://i.sstatic .net/LuTFg.gif[/img]


Итак, главный вопрос: [b]как получить эту функцию E[/b] ?
Я нашел это:

[img]https://i.sstatic.net/Fzyjf.gif[/img]
 

но я не знаю, как искать коэффициенты a и b в scipy или т. д. 

Подробнее здесь: [url]https://stackoverflow.com/questions/39643391/good-turing-smoothing-implementation-problems[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Таблица переходов машины Тьюринга для проверки палиндрома

Последнее сообщение Anonymous « 14 май 2024, 22:47
Добавлено в форуме Python

Anonymous » 14 май 2024, 22:47 » в форуме Python

Использование машины Тьюринга. Если бы входная лента машины состояла из строки 0 и 1, как бы вы подошли к решению проблемы, учитывая, что выходные данные машины должны быть 1 или 0 соответственно, в зависимости от того, палиндром это или нет.
Мне...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
14 май 2024, 22:47
Алгоритм создания машины Тьюринга из регулярного выражения

Последнее сообщение Anonymous « 17 июл 2024, 14:51
Добавлено в форуме JAVA

Anonymous » 17 июл 2024, 14:51 » в форуме JAVA

Я разрабатываю программное обеспечение для создания машины Тьюринга на основе регулярного выражения. Другими словами, я хочу принять регулярное выражение в качестве входных данных и программно сгенерировать машину Тьюринга для выполнения той же...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
17 июл 2024, 14:51
Алгоритм Тьюринга [закрыто]

Последнее сообщение Anonymous « 20 ноя 2024, 17:34
Добавлено в форуме C#

Anonymous » 20 ноя 2024, 17:34 » в форуме C#

Я пытался справиться с задачей Тьюринга по кодированию, чтобы перейти к следующему этапу, но это было нелегко. Я использую язык csharp. Пожалуйста, поделитесь идеями о книгах, материалах по алгоритмам или других средствах, с помощью которых я могу...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 17:34
Сложность сглаживания двоичного сигнала в Python

Последнее сообщение Anonymous « 28 фев 2024, 13:47
Добавлено в форуме Python

Anonymous » 28 фев 2024, 13:47 » в форуме Python

У меня есть двоичный сигнал, который я хочу сгладить в Python следующим образом:

Предположим, у меня есть 1,1,1,1,0,1,0,0,0, я ожидаю 1,1,1,1,1,1,0,0,0.

Я попробовал это:

def Smooth_binary_signal(label_series, window_size=5): Smoothed_result =...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
28 фев 2024, 13:47
Как реализовать матрицу, представляющую разности второго порядка, для решения сглаживания Уиттекера?

Последнее сообщение Anonymous « 24 апр 2024, 05:27
Добавлено в форуме JAVA

Anonymous » 24 апр 2024, 05:27 » в форуме JAVA

Я пытаюсь использовать Уиттакера-Эйлерса для сглаживания зашумленных данных. Используя эту статью, чтобы создать метод, который находит A в уравнениях 11 и 12 на странице, которую я написал:
private LUDecomposition buildMatrices(int dataSize,...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
24 апр 2024, 05:27

Вернуться в «Python»