Назначайте значения многоиндексных переменных на основе количества элементов в кадре данных, соответствующих критериям в

Назначайте значения многоиндексных переменных на основе количества элементов в кадре данных, соответствующих критериям в ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Назначайте значения многоиндексных переменных на основе количества элементов в кадре данных, соответствующих критериям в

Цитата

Сообщение Anonymous » 25 сен 2024, 00:48

У меня есть большой набор данных CSV, который выглядит следующим образом:

Код: Выделить всё

id,x,y,z
34295,695.117,74.0177,70.6486
20915,800.784,98.5225,19.3014
30369,870.428,98.742,23.9953
48151,547.681,53.055,174.176
34026,1231.02,73.7678,203.404
34797,782.725,73.9831,218.592
15598,983.502,82.9373,314.081
34076,614.738,86.3301,171.316
20328,889.016,98.9201,13.3068
...

Если я считаю каждую из этих строк элементом, я хотел бы иметь структуру данных, в которой я мог бы легко разделить пространство на диапазоны x, y, z (3-мерные блоки пространства). и определить, сколько элементов находится в данном блоке.
Например, если я разделил на кубы 100 x 100 x 100:

Код: Выделить всё

counts[900][100][100] = 3

потому что идентификаторы 20915, 30369 и 20328 из приведенного выше фрагмента CSV находятся в диапазоне x = 800–900, y = 0–100 и z = 0–100.
Грубый способ создать что-то подобное — создать многоуровневый словарь следующим образом:

Код: Выделить всё

import numpy
import pandas

df = pandas.read_csv("test.csv")

xs = numpy.linspace(0, 1300, 14, endpoint=True)
ys = numpy.linspace(0, 1000, 11, endpoint=True)
zs = numpy.linspace(0, 1000, 11, endpoint=True)

c = {}
for x_index, x in enumerate(xs[:-1]):
c[xs[x_index + 1]] = {}
for y_index, y in enumerate(ys[:-1]):
c[xs[x_index + 1]][ys[y_index + 1]] = {}
for z_index, z in enumerate(zs[:-1]):
c[xs[x_index + 1]][ys[y_index + 1]][zs[z_index + 1]] = df[(df["x"] > xs[x_index]) & (df["x"]  ys[y_index]) & (df["y"]  zs[z_index]) & (df["z"]  0):
print("c[" + str(xs[x_index + 1]) + "][" + str(ys[y_index + 1]) + "][" + str(zs[z_index + 1]) + "] = " + str(c[xs[x_index + 1]][ys[y_index + 1]][zs[z_index + 1]]))

Это дает ожидаемый результат:

Код: Выделить всё

c[600.0][100.0][200.0] = 1
c[700.0][100.0][100.0] = 1
c[700.0][100.0][200.0] = 1
c[800.0][100.0][300.0] = 1
c[900.0][100.0][100.0] = 3
c[1000.0][100.0][400.0] = 1
c[1300.0][100.0][300.0] = 1

но поскольку фактический рабочий файл CSV очень большой, он работает довольно медленно. Есть какие-нибудь предложения, как сделать это быстрее и менее неуклюже? Спасибо.

Подробнее здесь: https://stackoverflow.com/questions/790 ... a-datafram

1727214530

Anonymous

У меня есть большой набор данных CSV, который выглядит следующим образом:
[code]id,x,y,z
34295,695.117,74.0177,70.6486
20915,800.784,98.5225,19.3014
30369,870.428,98.742,23.9953
48151,547.681,53.055,174.176
34026,1231.02,73.7678,203.404
34797,782.725,73.9831,218.592
15598,983.502,82.9373,314.081
34076,614.738,86.3301,171.316
20328,889.016,98.9201,13.3068
...
[/code]
Если я считаю каждую из этих строк элементом, я хотел бы иметь структуру данных, в которой я мог бы легко разделить пространство на диапазоны x, y, z (3-мерные блоки пространства). и определить, сколько элементов находится в данном блоке.
Например, если я разделил на кубы 100 x 100 x 100:
[code]counts[900][100][100] = 3
[/code]
потому что идентификаторы 20915, 30369 и 20328 из приведенного выше фрагмента CSV находятся в диапазоне x = 800–900, y = 0–100 и z = 0–100. 
Грубый способ создать что-то подобное — создать многоуровневый словарь следующим образом:
[code]import numpy
import pandas

df = pandas.read_csv("test.csv")

xs = numpy.linspace(0, 1300, 14, endpoint=True)
ys = numpy.linspace(0, 1000, 11, endpoint=True)
zs = numpy.linspace(0, 1000, 11, endpoint=True)

c = {}
for x_index, x in enumerate(xs[:-1]):
c[xs[x_index + 1]] = {}
for y_index, y in enumerate(ys[:-1]):
c[xs[x_index + 1]][ys[y_index + 1]] = {}
for z_index, z in enumerate(zs[:-1]):
c[xs[x_index + 1]][ys[y_index + 1]][zs[z_index + 1]] = df[(df["x"] > xs[x_index]) & (df["x"]  ys[y_index]) & (df["y"]  zs[z_index]) & (df["z"]  0):
print("c[" + str(xs[x_index + 1]) + "][" + str(ys[y_index + 1]) + "][" + str(zs[z_index + 1]) + "] = " + str(c[xs[x_index + 1]][ys[y_index + 1]][zs[z_index + 1]]))
[/code]
Это дает ожидаемый результат:
[code]c[600.0][100.0][200.0] = 1
c[700.0][100.0][100.0] = 1
c[700.0][100.0][200.0] = 1
c[800.0][100.0][300.0] = 1
c[900.0][100.0][100.0] = 3
c[1000.0][100.0][400.0] = 1
c[1300.0][100.0][300.0] = 1
[/code]
но поскольку фактический рабочий файл CSV очень большой, он работает довольно медленно.  Есть какие-нибудь предложения, как сделать это быстрее и менее неуклюже?  Спасибо. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79020232/assign-multi-index-variable-values-based-on-the-number-of-elements-in-a-datafram[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Назначайте значения многоиндексных переменных на основе количества элементов в кадре данных, соответствующих критериям в

Последнее сообщение Anonymous « 25 сен 2024, 00:07
Добавлено в форуме Python

Anonymous » 25 сен 2024, 00:07 » в форуме Python

У меня есть большой набор данных CSV, который выглядит следующим образом:
id,x,y,z
34295,695.117,74.0177,70.6486
20915,800.784,98.5225,19.3014
30369,870.428,98.742,23.9953
48151,547.681,53.055,174.176
34026,1231.02,73.7678,203.404...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 00:07
Назначайте значения многоиндексных переменных на основе количества элементов в кадре данных, соответствующих критериям в

Последнее сообщение Anonymous « 25 сен 2024, 04:32
Добавлено в форуме Python

Anonymous » 25 сен 2024, 04:32 » в форуме Python

У меня есть большой набор данных CSV, который выглядит следующим образом:
id,x,y,z
34295,695.117,74.0177,70.6486
20915,800.784,98.5225,19.3014
30369,870.428,98.742,23.9953
48151,547.681,53.055,174.176
34026,1231.02,73.7678,203.404...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 04:32
Сортировка и выбор элементов в кадре данных на основе отношений между двумя значениями двух столбцов во втором кадре дан

Последнее сообщение Гость « 30 апр 2024, 08:50
Добавлено в форуме Python

Гость » 30 апр 2024, 08:50 » в форуме Python

У меня есть два фрейма данных: df_characteristics и df_prices, которые содержат информацию о наборе объектов.
Оба фрейма данных имеют столбец с именем «uid» (уникальный идентификатор некоторых объектов). UID обоих фреймов данных одинаковы, они...

0 Ответы

96 Просмотры

Последнее сообщение Гость
30 апр 2024, 08:50
Как я могу сортировать порядок индекса на основе моих предпочтений в многоиндексных пандах данных

Последнее сообщение Anonymous « 11 апр 2025, 21:33
Добавлено в форуме Python

Anonymous » 11 апр 2025, 21:33 » в форуме Python

У меня есть Pandas DataFrame df . Он имеет многоиндекс с gx.region и scenario_model.
Индекс сценария_моделя упорядочен в алфавитном порядке des, pes, tes. Когда я складываю это, это происходит в том же порядке. Тем не менее, я хочу изменить его как...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
11 апр 2025, 21:33
Объединение нескольких фреймов данных в фрейм данных многоиндексных столбцов

Последнее сообщение Гость « 27 фев 2024, 18:42
Добавлено в форуме Python

Гость » 27 фев 2024, 18:42 » в форуме Python

Предположим, у меня есть 3 фрейма данных

df_1 представляет доход

Год TSLA MSFT AVY 2019 851 200 112,8 2018 725 150 92,6 df_2 представляет некоторые другие доходы

Год TSLA MSFT AVY 2019 10 13 17 2018 11 14 18 и df_3 представляют расходы

Год...

0 Ответы

84 Просмотры

Последнее сообщение Гость
27 фев 2024, 18:42

Вернуться в «Python»