Более быстрые методы создания GeoDataFrame из DASK или PANDAS DATAFRAME

Более быстрые методы создания GeoDataFrame из DASK или PANDAS DATAFRAME ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Более быстрые методы создания GeoDataFrame из DASK или PANDAS DATAFRAME

Цитата

Сообщение Anonymous » 28 янв 2025, 07:29

проблема
Я пытаюсь обрезать очень большую блочную модель (файл 5,8 ГБ CSV), содержащий координаты Centroid X, Y и Z с Высота Растро. Я пытаюсь получить только блоки, лежащие чуть выше растрового слоя. Значения в точки модели блока. Для больших наборов данных это занимает необычное количество времени (да, это технический термин) в ArcGIS.
Как я хочу его решить < Br /> Я хочу ускорить это, импортируя CSV в Python. Используя Dask, это быстро и просто: < /p>

Код: Выделить всё

import dask
from dask import dataframe as dd

BM = dd.read_csv(BM_path, skiprows=2,names=["X","Y","Z","Lith"])
< /code>
Но создание GeoDataFrame с использованием геопанд не является быстрым процессом. Я думал, что ускорение его с помощью следующего многопроцессорного кода может работать: < /p>
import multiprocessing as mp
from multiprocessing import pool
import geopandas as gpd

pool=mp.Pool(mp.cpu_count())
geometry = pool.apply(gpd.points_from_xy, args=(BM.X,BM.Y,BM.Z))
pool.close()
< /code>
Тем не менее, я на час ожидания, пока это не будет обработать без конца. сразу в следующем коде, но поймите, что есть некоторые синтаксические ошибки, которые я не знаю, как исправить, особенно с прохождением "Geometry =" to args =: < /p>
pool = mp.Pool(mp.cpu_count())
results = pool.apply(gpd.GeoDataFrame, args=(BM,geometry=(BM.X,BM.Y,BM.Z)))
pool.close()

мне было интересно, есть ли у кого -то лучшее представление о том, как я могу ускорить это и сделать этот процесс более эффективным, независимо от того, могу ли я параллелизировать.

Подробнее здесь: https://stackoverflow.com/questions/716 ... -dataframe

1738038576

Anonymous

 [b] проблема [/b] 
Я пытаюсь обрезать очень большую блочную модель (файл 5,8 ГБ CSV), содержащий координаты Centroid X, Y и Z с Высота Растро. Я пытаюсь получить только блоки, лежащие чуть выше растрового слоя. Значения в точки модели блока. Для больших наборов данных это занимает необычное количество времени (да, это технический термин) в ArcGIS. 
[b] Как я хочу его решить [/b]  < Br />  Я хочу ускорить это, импортируя CSV в Python. Используя Dask, это быстро и просто: < /p>
[code]import dask
from dask import dataframe as dd

BM = dd.read_csv(BM_path, skiprows=2,names=["X","Y","Z","Lith"])
< /code>
Но создание GeoDataFrame с использованием геопанд не является быстрым процессом. Я думал, что ускорение его с помощью следующего многопроцессорного кода может работать: < /p>
import multiprocessing as mp
from multiprocessing import pool
import geopandas as gpd

pool=mp.Pool(mp.cpu_count())
geometry = pool.apply(gpd.points_from_xy, args=(BM.X,BM.Y,BM.Z))
pool.close()
< /code>
Тем не менее, я на час ожидания, пока это не будет обработать без конца. сразу в следующем коде, но поймите, что есть некоторые синтаксические ошибки, которые я не знаю, как исправить, особенно с прохождением "Geometry =" to args =: < /p>
pool = mp.Pool(mp.cpu_count())
results = pool.apply(gpd.GeoDataFrame, args=(BM,geometry=(BM.X,BM.Y,BM.Z)))
pool.close()
[/code]
мне было интересно, есть ли у кого -то лучшее представление о том, как я могу ускорить это и сделать этот процесс более эффективным, независимо от того, могу ли я параллелизировать.  

Подробнее здесь: [url]https://stackoverflow.com/questions/71685387/faster-methods-to-create-geodataframe-from-a-dask-or-pandas-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Привязка точек GeoDataFrame к ближайшей линии в отдельном GeoDataFrame

Последнее сообщение Anonymous « 03 янв 2025, 11:44
Добавлено в форуме Python

Anonymous » 03 янв 2025, 11:44 » в форуме Python

У меня есть события GeoDataFrame, содержащие только геометрию Point, и другие улицы GeoDataFrame, содержащие всю геометрию LineString. Я пытаюсь привязать все точки событий к ближайшей записи улицы. Я не нашел примера использования двух...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 11:44
Dask Python ValueError: нераспознанный dask менеджера фрагментов — должен быть одним из: []

Последнее сообщение Anonymous « 19 апр 2024, 14:43
Добавлено в форуме Python

Anonymous » 19 апр 2024, 14:43 » в форуме Python

Я использую xarray для объединения нескольких файлов netcdf с помощью xarray.open_mfdataset. Однако при попытке запустить код я получаю следующую ошибку:
---------------------------------------------------------------------------
ValueError...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 14:43
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 21 июн 2024, 18:52
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:52 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию раздела_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:52
Dask – Как оптимизировать вычисление первой строки каждого раздела в кадре данных dask?

Последнее сообщение Anonymous « 25 июн 2024, 16:38
Добавлено в форуме Python

Anonymous » 25 июн 2024, 16:38 » в форуме Python

Моя общая цель — прочитать несколько CSV-файлов, выполнить некоторые вычисления, сохранить их как базу данных паркета, используя опцию partition_on в функции to_parquet.
Я не могу переиндексировать и перераспределить перед сохранением из-за...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 16:38
Как вложить функции dask.delayed в другие функции dask.delayed

Последнее сообщение Anonymous « 27 ноя 2024, 12:54
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 12:54 » в форуме Python

Я пытаюсь изучить dask и создал следующий игрушечный пример конвейера с задержкой.
+-----+ +-----+ +-----+
| baz +--+ bar +--+ foo |
+-----+ +-----+ +-----+

Итак, baz зависит от bar, который, в свою очередь, зависит от foo
I хотелось бы, чтобы...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 12:54

Вернуться в «Python»