Python для превращения широкой электронной таблицы в несколько таблицPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Python для превращения широкой электронной таблицы в несколько таблиц

Сообщение Anonymous »

Я пытаюсь превратить набор данных, опубликованный правительством, во что-то полезное, помещая данные в таблицы MySQL. Я добиваюсь прогресса, но хочу узнать, есть ли какие-то инструменты, о которых я не знаю.
Если вам интересно, см. https://data.chhs.ca.gov/ dataset/hospital-annual-financial-disclosure-report-complete-data-set
Использование pandas было бы очевидным подспорьем, но я не использовал его ни в этом, ни в других проектах. Я довольно часто просматриваю очень беспорядочный набор данных, извлеченный из файла pdf или xlsx, и pandas в конечном итоге не получает большую часть данных. Я видел много интересных сообщений об ошибках, но не так много данных.
Итак. Государственное агентство превратило нечто, очевидно, представляющее собой набор таблиц, в одну электронную таблицу.
В электронной таблице, я вас не шучу, 12 465 столбцов.
У меня есть такие столбцы:

Код: Выделить всё

'CCS_Approved_NICU_Indicator_Community'
'CCS_Approved_NICU_Indicator_Intermediate'
'CCS_Approved_NICU_Indicator_Regional'
'CS_&_S_Adj._Inpatient_Days_Total_Medical_Supplies_Sold_to_Patients'
'Chemical_Dependency_-_Detox_Alcohol'
'Chemical_Dependency_-_Detox_Drug'
'Chemical_Dependency_-_Rehab_Alcohol'
'Chemical_Dependency_-_Rehab_Drug'
...
'Active_Medical_Staff_Hospital_Based_Board_Certified_Aerospace_Medicine'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Allergy_and_Immunology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Anesthesiology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Cardiovascular_Diseases'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Child_Psychiatry'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Colon_and_Rectal_Surgery'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Dental'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Dermatology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Diagnostic_Radiology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Forensic_Pathology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Gastroenterology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_General/Family_Practice'
'Active_Medical_Staff_Hospital_Based_Board_Certified_General_Preventative_Medicine'
'Active_Medical_Staff_Hospital_Based_Board_Certified_General_Surgery'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Internal_Medicine'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Neurological_Surgery'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Neurology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Nuclear_Medicine'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Obstetrics_and_Gynecology'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Occupational_Medicine'
'Active_Medical_Staff_Hospital_Based_Board_Certified_Oncology'
...
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Alternate_Birthing_Center'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Ambulatory_Surgery_Services'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Anesthesiology'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Blood_Bank'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Burn_Care'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Cardiac_Catheterization_Services'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Cardiology_Services'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Chemical_Dependency_Services'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Clinical_Laboratory_Services'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Clinics'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Computed_Tomographic_Scanner'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Coronary_Care'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Definitive_Observation'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Drugs_Sold_to_Patients'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Durable_Medical_Equipment'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Echocardiology'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Electroconvulsive_Therapy'
'Gross_Inpatient_Revenue_County_Indigent_Programs_-_Managed_Care_Electroencephalography'
и так далее, и так далее, и так далее.
Сейчас я определил таблицы по общим префиксам. Я хотел сделать это автоматически, но в итоге сделал это вручную. Иногда автоматизировать что-то сложнее, чем просто сделать это. У меня есть данные только за 9 лет, с небольшими вариациями. Я надеюсь. Итак, я могу разобраться.
Таблицы я создал. Со временем мне придется выяснить типы данных столбцов, но пока я просто сохраняю их в виде строки.
И вот оно. Есть предложения? Кто-нибудь заинтересован в сотрудничестве в проведении анализа?

Подробнее здесь: https://stackoverflow.com/questions/791 ... ple-tables
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Поддержание работы потока после превращения основного процесса в демона
    Anonymous » » в форуме Linux
    0 Ответы
    9 Просмотры
    Последнее сообщение Anonymous
  • При отправке электронной почты C # - использование CKEditor 5 для тела электронной почты, OnValidSubmit Тело электронной
    Anonymous » » в форуме C#
    0 Ответы
    78 Просмотры
    Последнее сообщение Anonymous
  • При отправке электронной почты C # - использование CKEditor 5 для тела электронной почты, OnValidSubmit Тело электронной
    Anonymous » » в форуме C#
    0 Ответы
    78 Просмотры
    Последнее сообщение Anonymous
  • Рамка этикетки становится слишком широкой
    Anonymous » » в форуме Python
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Рамка этикетки становится слишком широкой
    Anonymous » » в форуме Python
    0 Ответы
    14 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»