В настоящее время я вычисляю максимальное среднее расхождение (MMD) между двумя двоичными (0/1) наборами данных с использованием сходства Jaccard. Код работает, но, поскольку я новичок в этой концепции, я бы очень признателен за любые отзывы о том, является ли это подходящим подходом. < /P>
В настоящее время я вычисляю максимальное среднее расхождение (MMD) между двумя двоичными (0/1) наборами данных с использованием сходства Jaccard. Код работает, но, поскольку я новичок в этой концепции, я бы очень признателен за любые отзывы о том, является ли это подходящим подходом. < /P> [code]import numpy as np from sklearn.metrics.pairwise import pairwise_distances
# Jaccard Kernel function def jaccard_kernel(X, Y=None): # self kernel if Y is None: Y = X
В настоящее время я вычисляю максимальное среднее расхождение (MMD) между двумя двоичными (0/1) наборами данных с использованием сходства Jaccard. Код работает, но, поскольку я новичок в этой концепции, я очень признателю любые отзывы о том,...
Я работаю с очень большим набором данных (десятки миллионов строк), который содержит комбинации адресов во многих странах. Каждая строка представляет собой пару адресов, и я уже проанализировал эти адреса, используя модель Deepparse, поэтому мой...
Я хочу применить коэффициент jaccard в файле Excel, в котором есть 5575 строк, «id» и «текст», я хочу упомянуть, что я хочу сходство двух по двум рядам:
Самоучащийся в Python, я пытаюсь улучшить, так что любая помощь очень приветствуется, спасибо, много!
Я хочу вычислить сходство Jaccard по столбцу моего Frame, соответствующего критериям в другом столбце.
DF выглядит так:
name bag number item...