Я работаю на R, и, честно говоря, это самая простая вещь, которую можно сделать в одной строке с использованием R data.tables, а для больших таблиц данных эта операция выполняется довольно быстро. Но мне очень сложно реализовать это на Python. Ни один из ранее упомянутых вариантов использования не подходил для моего приложения. Основная проблема — использование памяти в решении Python, как я объясню ниже.
Проблема: у меня есть два больших DataFrames df1 и df2 (каждый около 50–100 млн строк), и мне нужно объединить два (или n) столбца df2 с df1 на основе двух условий:
1) df1.id = df2.id (обычный случай) слияния)
2) df2.value_2A
Подробнее здесь: https://stackoverflow.com/questions/619 ... d-keys-bas
Мобильная версия