Наивная реализация классификатора байеса с нуля

Наивная реализация классификатора байеса с нуля ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Наивная реализация классификатора байеса с нуля

Цитата

Сообщение Anonymous » 31 мар 2025, 18:46

Я сам пытаюсь внедрить свой первый наивный байесовский классификатор для лучшего понимания. Итак, у меня есть набор данных от http://archive.ics.uci.edu/ml/datasets/adult (данные американской переписи, классы « 50k ').
Вот мой код питона:

import sys
import csv

words_stats = {} # {'word': {'class1': cnt, 'class2': cnt'}}
words_cnt = 0

targets_stats = {} # {'class1': 3234, 'class2': 884} how many words in each class
class_stats = {} # {'class1': 7896, 'class2': 3034} how many lines in each class
items_cnt = 0

def train(dataset, targets):
global words_stats, words_cnt, targets_stats, items_cnt, class_stats

num = len(dataset)
for item in xrange(num):
class_stats[targets[item]] = class_stats.get(targets[item], 0) + 1

for i in xrange(len(dataset[item])):
word = dataset[item]
if not words_stats.has_key(word):
words_stats[word] = {}

tgt = targets[item]

cnt = words_stats[word].get(tgt, 0)
words_stats[word][tgt] = cnt + 1

targets_stats[tgt] = targets_stats.get(tgt, 0) + 1
words_cnt += 1

items_cnt = num

def classify(doc, tgt_set):
global words_stats, words_cnt, targets_stats, items_cnt

probs = {} #the probability itself P(c|W) = P(W|c) * P(c) / P(W)
pc = {} #probability of the class in document set P(c)
pwc = {} #probability of the word set in particular class. P(W|c)
pw = 1 #probability of the word set in documet set

for word in doc:
if word not in words_stats:
continue #dirty, very dirty
pw = pw * float(sum(words_stats[word].values())) / words_cnt

for tgt in tgt_set:
pc[tgt] = class_stats[tgt] / float(items_cnt)
for word in doc:
if word not in words_stats:
continue #dirty, very dirty
tgt_wrd_cnt = words_stats[word].get(tgt, 0)
pwc[tgt] = pwc.get(tgt, 1) * float(tgt_wrd_cnt) / targets_stats[tgt]

probs[tgt] = (pwc[tgt] * pc[tgt]) / pw

l = sorted(probs.items(), key = lambda i: i[1], reverse=True)
print probs
return l[0][0]

def check_results(dataset, targets):
num = len(dataset)
tgt_set = set(targets)
correct = 0
incorrect = 0

for item in xrange(num):
res = classify(dataset[item], tgt_set)
if res == targets[item]:
correct = correct + 1
else:
incorrect = incorrect + 1

print 'correct:', float(correct) / num, ' incorrect:', float(incorrect) / num

def load_data(fil):
data = []
tgts = []

reader = csv.reader(fil)
for line in reader:
d = [x.strip() for x in line]
if '?' in d:
continue

if not len(d):
continue

data.append(d[:-1])
tgts.append(d[-1:][0])

return data, tgts

if __name__ == '__main__':
if len(sys.argv) < 3:
print './program train_data.txt test_data.txt'
sys.exit(1)

filename = sys.argv[1]
fil = open(filename, 'r')
data, tgt = load_data(fil)
train(data, tgt)

test_file = open(sys.argv[2], 'r')
test_data, test_tgt = load_data(test_file)

check_results(test_data, tgt)
< /code>
дает ~ 61% правильных результатов. Когда я печатаю вероятности, я получаю следующее: < /p>
{'50K': 15.325378327213354}
< /code>
Но в случае правильного классификатора я ожидаю увидеть сумму обеих вероятностей, равных 1.
Сначала я подумал, что проблема находится в плавающем подсчете, и попытался сделать все вычисления в логарифмах, но результаты были ощутимы. Понять?>

Подробнее здесь: https://stackoverflow.com/questions/193 ... om-scratch

1743435993

Anonymous

 Я сам пытаюсь внедрить свой первый наивный байесовский классификатор для лучшего понимания. Итак, у меня есть набор данных от http://archive.ics.uci.edu/ml/datasets/adult (данные американской переписи, классы « 50k '). 
Вот мой код питона: 

import sys
import csv

words_stats = {} # {'word': {'class1': cnt, 'class2': cnt'}}
words_cnt = 0

targets_stats = {} # {'class1': 3234, 'class2': 884} how many words in each class
class_stats = {} # {'class1': 7896, 'class2': 3034} how many lines in each class
items_cnt = 0

def train(dataset, targets):
global words_stats, words_cnt, targets_stats, items_cnt, class_stats

num = len(dataset)
for item in xrange(num):
class_stats[targets[item]] = class_stats.get(targets[item], 0) + 1

for i in xrange(len(dataset[item])):
word = dataset[item][i]
if not words_stats.has_key(word):
words_stats[word] = {}

tgt = targets[item]

cnt = words_stats[word].get(tgt, 0)
words_stats[word][tgt] = cnt + 1

targets_stats[tgt] = targets_stats.get(tgt, 0) + 1
words_cnt += 1

items_cnt = num

def classify(doc, tgt_set):
global words_stats, words_cnt, targets_stats, items_cnt

probs = {} #the probability itself P(c|W) = P(W|c) * P(c) / P(W)
pc = {} #probability of the class in document set P(c)
pwc = {} #probability of the word set in particular class. P(W|c)
pw = 1 #probability of the word set in documet set

for word in doc:
if word not in words_stats:
continue #dirty, very dirty
pw = pw * float(sum(words_stats[word].values())) / words_cnt

for tgt in tgt_set:
pc[tgt] = class_stats[tgt] / float(items_cnt)
for word in doc:
if word not in words_stats:
continue #dirty, very dirty
tgt_wrd_cnt = words_stats[word].get(tgt, 0)
pwc[tgt] = pwc.get(tgt, 1) * float(tgt_wrd_cnt) / targets_stats[tgt]

probs[tgt] = (pwc[tgt] * pc[tgt]) / pw

l = sorted(probs.items(), key = lambda i: i[1], reverse=True)
print probs
return l[0][0]

def check_results(dataset, targets):
num = len(dataset)
tgt_set = set(targets)
correct = 0
incorrect = 0

for item in xrange(num):
res = classify(dataset[item], tgt_set)
if res == targets[item]:
correct = correct + 1
else:
incorrect = incorrect + 1

print 'correct:', float(correct) / num, ' incorrect:', float(incorrect) / num

def load_data(fil):
data = []
tgts = []

reader = csv.reader(fil)
for line in reader:
d = [x.strip() for x in line]
if '?' in d:
continue

if not len(d):
continue

data.append(d[:-1])
tgts.append(d[-1:][0])

return data, tgts

if __name__ == '__main__':
if len(sys.argv) < 3:
print './program train_data.txt test_data.txt'
sys.exit(1)

filename = sys.argv[1]
fil = open(filename, 'r')
data, tgt = load_data(fil)
train(data, tgt)

test_file = open(sys.argv[2], 'r')
test_data, test_tgt = load_data(test_file)

check_results(test_data, tgt)
< /code>
дает ~ 61% правильных результатов. Когда я печатаю вероятности, я получаю следующее: < /p>
{'50K': 15.325378327213354}
< /code>
Но в случае правильного классификатора я ожидаю увидеть сумму обеих вероятностей, равных 1.
Сначала я подумал, что проблема находится в плавающем подсчете, и попытался сделать все вычисления в логарифмах, но результаты были ощутимы. Понять?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/19349567/naive-bayes-classifier-implementation-from-scratch[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему мой алгоритм отбрасывания лица использует битовые операции, а SIMD медленнее, чем наивная версия? [закрыто]

Последнее сообщение Anonymous « 23 июл 2025, 16:57
Добавлено в форуме C#

Anonymous » 23 июл 2025, 16:57 » в форуме C#

контекст
Я экспериментирую с алгоритмом выхвата лица для создания сетки вокселей и пробовал два оптимизированных подхода:

VisibilityCalculatorBinary.GetVisibleFaces() - использует битовые маски и операции ручного бита....

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
23 июл 2025, 16:57
Попытка понять теорию Байеса с помощью прямого применения

Последнее сообщение Anonymous « 01 мар 2024, 21:54
Добавлено в форуме Python

Anonymous » 01 мар 2024, 21:54 » в форуме Python

Я пытаюсь применить теорему Байеса к своей проблеме, чтобы понять методологию и порядок расчета чисел.

По сути, у меня есть данные о четырех художниках и количестве объектов, которые они создают каждый месяц за 80 периодов.

Меня интересует буква...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
01 мар 2024, 21:54
Смешивание категориальных и непрерывных данных в классификаторе Наивного Байеса с использованием scikit-learn

Последнее сообщение Anonymous « 30 июл 2024, 22:31
Добавлено в форуме Python

Anonymous » 30 июл 2024, 22:31 » в форуме Python

Я использую scikit-learn на Python для разработки алгоритма классификации, позволяющего предсказывать пол определенных клиентов. Среди прочего я хочу использовать классификатор Наивного Байеса, но моя проблема в том, что у меня есть сочетание...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 22:31
Как реализовать смесь гамма-распределений в Python без Байеса?

Последнее сообщение Anonymous « 03 янв 2025, 17:44
Добавлено в форуме Python

Anonymous » 03 янв 2025, 17:44 » в форуме Python

Я пытаюсь создать примеры для сравнения и противопоставления байесовского MCMC (например, HMC) с небайесовскими эквивалентами. Один из случаев, который мне кажется трудным, — это создание смеси гамма-распределений.
Сначала я добился некоторого...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 17:44
Как реализовать смесь гамма-распределений в Python без Байеса?

Последнее сообщение Anonymous « 04 янв 2025, 22:51
Добавлено в форуме Python

Anonymous » 04 янв 2025, 22:51 » в форуме Python

Я пытаюсь создать примеры для сравнения и противопоставления байесовского MCMC (например, HMC) с небайесовскими эквивалентами. Один из случаев, который мне кажется трудным, — это создание смеси гамма-распределений.
Сначала я добился некоторого...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 22:51

Вернуться в «Python»