У меня есть CSV-файл с моими оценками вероятностей исхода футбольного матча. Возможны три исхода: победа, ничья и поражение. Чтобы определить, насколько точны мои оценки, я хочу посмотреть, как они оцениваются по правилу оценки потерь бревен. Далее я предполагаю, что:
В каждом случае / футбольном матче) существует три возможных исхода (победа/ничья/проигрыш)
Модельные прогнозы исходов представляют собой соответствующие вероятности P,1, P,2 и P,3
Соответствующие фактические наблюдаемые исходы равны E,1, E,2 и Е,3. Таким образом, для футбольных матчей E,i равны либо 1, либо 0, и в таких случаях индекс фактического наблюдаемого результата будет обозначаться w, поэтому E,i равен 1, если i равен w, и 0 в противном случае.
import numpy as np
def log_loss_score(predicted, actual, eps=1e-14):
"""
:param predicted: The predicted probabilities as floats between 0-1
:param actual: The binary labels. Either 0 or 1.
:param eps: Log(0) is equal to infinity, so we need to offset our predicted values slightly by eps from 0 or 1
:return: The logarithmic loss between between the predicted probability assigned to the possible outcomes for item i, and the actual outcome.
"""
predicted = np.clip(predicted, eps, 1-eps)
loss = -1 * np.mean(actual * np.log(predicted) + (1 - actual) * np.log(1-predicted))
return loss
predicted = [0.35, 0.3, 0.35]
actual = [0, 1, 0] # the match ended in a draw
for x in range(0, len(predicted)):
log_loss = log_loss_score(predicted[x], actual[x])
print(log_loss)
Я понимаю, что это лог-проигрыш каждого прогноза результата матча для одного матча. Но как я могу преобразовать это в «широкий» логарифм потерь по совпадению?
Как я могу рассчитать логарифм потерь для всего матча, если у меня есть логарифм потерь для каждого потенциального результата?
У меня есть CSV-файл с моими оценками вероятностей исхода футбольного матча. Возможны три исхода: победа, ничья и поражение. Чтобы определить, насколько точны мои оценки, я хочу посмотреть, как они оцениваются по правилу оценки потерь бревен. Далее я предполагаю, что: [list] [*]В каждом случае / футбольном матче) существует три возможных исхода (победа/ничья/проигрыш) [*]Модельные прогнозы исходов представляют собой соответствующие вероятности P,1, P,2 и P,3 [*]Соответствующие фактические наблюдаемые исходы равны E,1, E,2 и Е,3. Таким образом, для футбольных матчей E,i равны либо 1, либо 0, и в таких случаях индекс фактического наблюдаемого результата будет обозначаться w, поэтому E,i равен 1, если i равен w, и 0 в противном случае. [/list] Мой рабочий сценарий выглядит следующим образом [code]import numpy as np
def log_loss_score(predicted, actual, eps=1e-14):
""" :param predicted: The predicted probabilities as floats between 0-1 :param actual: The binary labels. Either 0 or 1. :param eps: Log(0) is equal to infinity, so we need to offset our predicted values slightly by eps from 0 or 1 :return: The logarithmic loss between between the predicted probability assigned to the possible outcomes for item i, and the actual outcome. """
predicted = [0.35, 0.3, 0.35] actual = [0, 1, 0] # the match ended in a draw for x in range(0, len(predicted)): log_loss = log_loss_score(predicted[x], actual[x]) print(log_loss) [/code] Запуск этого сценария дает следующий результат: [code]0.4307829160924542 1.2039728043259361 0.4307829160924542 [/code] Я понимаю, что это лог-проигрыш каждого прогноза результата матча для одного матча. Но как я могу преобразовать это в «широкий» логарифм потерь по совпадению? Как я могу рассчитать логарифм потерь для всего матча, если у меня есть логарифм потерь для каждого потенциального результата?