Pd.read_csv: ошибка, когда в столбце строки присутствует запятая «,»

Pd.read_csv: ошибка, когда в столбце строки присутствует запятая «,» ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pd.read_csv: ошибка, когда в столбце строки присутствует запятая «,»

Цитата

Сообщение Anonymous » 07 дек 2024, 00:34

Я считываю файл CSV локально. Сентябрь для данных — «|», поэтому я указываю pd.read_csv(repo, sep="|"). Данные загружаются.
Однако, когда я проверяю данные, строковый столбец «movie_title» помещает все данные этой строки в первый столбец. Это происходит всякий раз, когда в «movie_title» присутствует запятая «,».
Чтобы обойти эту проблему, я добавил аргумент «quotechar» в read_csv. Это распределяет данные по столбцам. Однако теперь в столбце 1 стоит начальный ", а в столбце -1 - завершающий ".
MRE

Код: Выделить всё

import pandas as pd

# when hosted in the cloud, repos can be public or private. this repo is public.
repo = "gs://minimum-reproduceable-2152532/item.csv"
cols = ["movie_id", "movie_title", "release_date", "video_release_date", "IMDB_url", "unknown", "Action", "Adventure", "Animation", "Childrens", "Comedy", "Crime", "Documentary", "Drama", "Fantasy", "Film-Noir", "Horror", "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"]

df = pd.read_csv(repo, sep="|", names=cols, encoding="latin-1")

df.iloc[10:15, ::]

который выдает для тех, кто не может запустить приведенный выше код, следующий результат:

См. столбец 1, строки 11 и 13.
Есть есть ли способ справиться с этим в пандах или мне придется превзойти Excel?

Подробнее здесь: https://stackoverflow.com/questions/792 ... ing-column

1733520867

Anonymous

Я считываю файл CSV локально. Сентябрь для данных — «|», поэтому я указываю pd.read_csv(repo, sep="|"). Данные загружаются.
Однако, когда я проверяю данные, строковый столбец «movie_title» помещает все данные этой строки в первый столбец. Это происходит всякий раз, когда в «movie_title» присутствует запятая «,».
Чтобы обойти эту проблему, я добавил аргумент «quotechar» в read_csv. Это распределяет данные по столбцам. Однако теперь в столбце 1 стоит начальный ", а в столбце -1 - завершающий ".
MRE
[code]import pandas as pd

# when hosted in the cloud, repos can be public or private. this repo is public.
repo = "gs://minimum-reproduceable-2152532/item.csv"
cols = ["movie_id", "movie_title", "release_date", "video_release_date", "IMDB_url", "unknown", "Action", "Adventure", "Animation", "Childrens", "Comedy", "Crime", "Documentary", "Drama", "Fantasy", "Film-Noir", "Horror", "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"]

df = pd.read_csv(repo, sep="|", names=cols, encoding="latin-1")

df.iloc[10:15, ::]
[/code]
который выдает для тех, кто не может запустить приведенный выше код, следующий результат:

См. столбец 1, строки 11 и 13.
Есть есть ли способ справиться с этим в пандах или мне придется превзойти Excel? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79258656/pd-read-csv-error-when-comma-is-present-in-string-column[/url]