Как настроить этот алгоритм DBSCAN на Python

Как настроить этот алгоритм DBSCAN на Python ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Как настроить этот алгоритм DBSCAN на Python

Цитата

Сообщение Гость » 21 сен 2023, 07:41

Я использую этот алгоритм кластеризации для кластеризации точек широты и долготы. Я использую заранее написанный код, который приведен по адресу http://scikit-learn.org/stable/auto_exa ... bscan.html.

Код выглядит следующим образом и использует мой файл с более чем 4000 точками широты и долготы. Однако я хочу настроить этот код так, чтобы он определял кластер только как точки в пределах, скажем, 0,000020 друг от друга, поскольку я хочу, чтобы мои кластеры находились почти на уровне улицы.

На данный момент я получаю 11 кластеров, тогда как теоретически мне нужно как минимум 100 кластеров. Я пробовал корректировать и изменять разные цифры, но безрезультатно.
print(__doc__) импортировать numpy как np из sklearn.cluster импортировать DBSCAN из показателей импорта sklearn из sklearn.datasets.samples_generator импортируйте make_blobs из sklearn.preprocessing импорт StandardScaler ######################################################################################### ########################### # Генерируем образец данных input = np.genfromtxt(open("dataset_import_noaddress.csv","rb"),delimiter=",",skip_header=1) координаты = np.delete(input, [0,1], 1) X, labels_true = make_blobs(n_samples=4000, center=coordinates, groups_std=0.0000005, случайное_состояние=0) X = StandardScaler().fit_transform(X) ######################################################################################### ########################### # Вычисление DBSCAN db = DBSCAN(eps=0,3, min_samples=10).fit(X) core_samples_mask = np.zeros_like(db.labels_, dtype=bool) core_samples_mask[db.core_sample_indices_] = Истина метки = db.labels_ # Количество кластеров в метках, игнорируя шум, если он присутствует. n_clusters_ = len(set(labels)) - (1, если -1 в метках, иначе 0) print('Оценочное количество кластеров: %d' % n_clusters_) print("Гомогенность: %0.3f" % metrics.homogeneity_score(labels_true, labels)) print("Полнота: %0.3f" % metrics.completeness_score(labels_true, labels)) print("V-мера: %0.3f" % metrics.v_measure_score(labels_true, labels)) print("Скорректированный индекс Ранда: %0.3f" % metrics.adjusted_rand_score(labels_true, labels)) print("Скорректированная взаимная информация: %0.3f" % metrics.adjusted_mutual_info_score(labels_true, labels)) print("Коэффициент силуэта: %0.3f" % metrics.silhouette_score(X, метки)) ######################################################################################### ########################### # Результат графика импортировать matplotlib.pyplot как plt # Черный цвет удален и вместо него используется для шума. unique_labels = set(метки) цвета = plt.cm.Spectral(np.linspace(0, 1, len(unique_labels))) для k, col в zip (уникальные_метки, цвета): если к == -1: # Черный используется для шума. столбец = 'к' class_member_mask = (метки == k) xy = X[маска_члена_класса и маска_core_samples_mask] plt.plot(xy[:, 0], xy[:, 1], 'o',markerfacecolor=col, маркереджколор = 'к', маркер размер = 14) xy = X[class_member_mask & ~core_samples_mask] plt.plot(xy[:, 0], xy[:, 1], 'o',markerfacecolor=col, маркереджколор = 'к', маркер размер = 6) plt.title('Оценочное количество кластеров: %d' % n_clusters_) plt.show()

1695271281

Гость


Я использую этот алгоритм кластеризации для кластеризации точек широты и долготы. Я использую заранее написанный код, который приведен по адресу http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html.
 
Код выглядит следующим образом и использует мой файл с более чем 4000 точками широты и долготы. Однако я хочу настроить этот код так, чтобы он определял кластер только как точки в пределах, скажем, 0,000020 друг от друга, поскольку я хочу, чтобы мои кластеры находились почти на уровне улицы.
 
На данный момент я получаю 11 кластеров, тогда как теоретически мне нужно как минимум 100 кластеров. Я пробовал корректировать и изменять разные цифры, но безрезультатно.
 print(__doc__) импортировать numpy как np из sklearn.cluster импортировать DBSCAN из показателей импорта sklearn из sklearn.datasets.samples_generator импортируйте make_blobs из sklearn.preprocessing импорт StandardScaler ######################################################################################### ########################### # Генерируем образец данных input = np.genfromtxt(open("dataset_import_noaddress.csv","rb"),delimiter=",",skip_header=1) координаты = np.delete(input, [0,1], 1) X, labels_true = make_blobs(n_samples=4000, center=coordinates, groups_std=0.0000005,                         случайное_состояние=0) X = StandardScaler().fit_transform(X) ######################################################################################### ########################### # Вычисление DBSCAN db = DBSCAN(eps=0,3, min_samples=10).fit(X) core_samples_mask = np.zeros_like(db.labels_, dtype=bool) core_samples_mask[db.core_sample_indices_] = Истина метки = db.labels_ # Количество кластеров в метках, игнорируя шум, если он присутствует. n_clusters_ = len(set(labels)) - (1, если -1 в метках, иначе 0) print('Оценочное количество кластеров: %d' % n_clusters_) print("Гомогенность: %0.3f" % metrics.homogeneity_score(labels_true, labels)) print("Полнота: %0.3f" % metrics.completeness_score(labels_true, labels)) print("V-мера: %0.3f" % metrics.v_measure_score(labels_true, labels)) print("Скорректированный индекс Ранда: %0.3f"   % metrics.adjusted_rand_score(labels_true, labels)) print("Скорректированная взаимная информация: %0.3f"   % metrics.adjusted_mutual_info_score(labels_true, labels)) print("Коэффициент силуэта: %0.3f"   % metrics.silhouette_score(X, метки)) ######################################################################################### ########################### # Результат графика импортировать matplotlib.pyplot как plt # Черный цвет удален и вместо него используется для шума. unique_labels = set(метки) цвета = plt.cm.Spectral(np.linspace(0, 1, len(unique_labels))) для k, col в zip (уникальные_метки, цвета):     если к == -1:         # Черный используется для шума.         столбец = 'к'     class_member_mask = (метки == k)     xy = X[маска_члена_класса и маска_core_samples_mask]     plt.plot(xy[:, 0], xy[:, 1], 'o',markerfacecolor=col,          маркереджколор = 'к', маркер размер = 14)     xy = X[class_member_mask & ~core_samples_mask]     plt.plot(xy[:, 0], xy[:, 1], 'o',markerfacecolor=col,          маркереджколор = 'к', маркер размер = 6) plt.title('Оценочное количество кластеров: %d' % n_clusters_) plt.show()

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Вопрос о dbscan от sklearn и dbscan от Rapids

Последнее сообщение Anonymous « 16 июл 2024, 14:30
Добавлено в форуме Python

Anonymous » 16 июл 2024, 14:30 » в форуме Python

Я тестирую версию Rapids на dbscan, которая работает с графическим процессором.
Я написал короткий код на Python, который находит кластеры в трехмерных случайно сгенерированных точках, и когда я играл с кодом, я понял, что процессор работает...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 14:30
DBSCAN Python с периодическими граничными условиями

Последнее сообщение Anonymous « 29 янв 2025, 20:00
Добавлено в форуме Python

Anonymous » 29 янв 2025, 20:00 » в форуме Python

Я пытаюсь использовать sklearn.cluster.dbscan sklearn.cluster.dbscan для анализа кластеров в 2-й сети. cluster.dbscan.html#sklearn.cluster.dbscan
Но я столкнулся с проблемой, что кластеризация между периодическими граничными условиями не...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
29 янв 2025, 20:00
Python DBSCAN кластеризация с периодическими граничными условиями

Последнее сообщение Anonymous « 29 янв 2025, 20:03
Добавлено в форуме Python

Anonymous » 29 янв 2025, 20:03 » в форуме Python

Я нуб, наверное, я делаю для меня слишком большие, но мне нужно это для моей тезиса, пожалуйста, прости мое невежество.
Моя цель - сделать кластеризацию на 3D -точках, используя Sklearn.cluster.dbscan, и реализовать периодическое граничное условие...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
29 янв 2025, 20:03
Как добавить еще один параметр в sklearn DBSCAN

Последнее сообщение Anonymous « 02 мар 2024, 14:31
Добавлено в форуме Python

Anonymous » 02 мар 2024, 14:31 » в форуме Python

I have a list of points I wish to make as core points for DBSCAN. I am aware that I can subclass sklearn DBSCAN to explicitly set my core points similar to the first comment here: How to provide core points in DBSCAN?

Now, I wish to add something...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
02 мар 2024, 14:31
Аналогичный проект обнаружения объектов с участием DBSCAN не работает, как предполагалось

Последнее сообщение Anonymous « 05 май 2025, 12:23
Добавлено в форуме Python

Anonymous » 05 май 2025, 12:23 » в форуме Python

Я написал код, чтобы иметь возможность идентифицировать аналогичные/те же объекты. У нас есть набор хранимых изображений, и мы вводим изображение объекта, поэтому код должен варить все похожие совпадения внутри каждого изображения.
Это в моем коде:...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
05 май 2025, 12:23

Вернуться в «Python»