Надеюсь, вы сможете мне помочь. При чтении немного большого CSV размером 400 МБ с помощью Pandas читаются не все записи. URL-адрес открытых данных: URL
С помощью Pandas я могу читать только 1 189 096 записей, но в файле есть 1 216 582, включая заголовок. . Версии этого файла предыдущих дней были прочитаны полностью и без проблем, даже без необходимости указывать "
Надеюсь, вы сможете мне помочь. При чтении немного большого CSV размером 400 МБ с помощью Pandas читаются не все записи. URL-адрес открытых данных: URL С помощью Pandas я могу читать только [b]1 189 096[/b] записей, но в файле есть [b]1 216 582[/b], включая заголовок. . Версии этого файла предыдущих дней были прочитаны полностью и без проблем, даже без необходимости указывать "[code]col_names[/code]", но сегодня выдала ошибку [code]"pandas.errors.ParserError: Error tokenizing data. C error: Expected 32 fields in line 417545, saw 44" [/code] Вот почему мне пришлось указать столбцы, но он не читает весь файл и не выдает сообщений об ошибках. Код Я использую в Python: [code]col_names = ["N", "TIPO_SEGURO", "SEXO", "TIEMPO_EDAD", "EDAD", "ESTADO_CIVIL", "NIVEL_DE_INSTRUCCION", "ETNIA", "COD_UBIGEO_DOMICILIO", "PAIS_DOMICILIO", "DEPARTAMENTO_DOMICILIO", "PROVINCIA_DOMICILIO", "DISTRITO_DOMICILIO", "FECHA", "ANIO", "MES", "TIPO_LUGAR", "INSTITUCION", "MUERTE_VIOLENTA", "NECROPSIA", "DEBIDO_CAUSA_A", "CAUSA_A_CIEX", "DEBIDO_CAUSA_B", "CAUSA_B_CIEX", "DEBIDO_CAUSA_C", "CAUSA_C_CIEX", "DEBIDO_CAUSA_D", "CAUSA_D_CIEX", "DEBIDO_CAUSA_E", "CAUSA_E_CIEX", "DEBIDO_CAUSA_F", "CAUSA_F_CIEX"]
print(df.shape[0]) # To know how many records Pandas has loaded [/code] Пожалуйста, если вы можете мне помочь, потому что у меня заканчиваются идеи, я уже использовал устранение "[code]low_memory[/code]", устраняя "[code]dtype[/code]", и это не меняет результат. Заранее благодарю.