Я провожу анализ данных, и для обеспечения воспроизводимости я хочу, чтобы мои результаты были отмечены версией кода, использованного для их получения. Я делаю это с помощью
Код: Выделить всё
import git
repo = git.Repo(search_parent_directories=True)
last_commit_hex = repo.head.object.hexsha
Но это не обязательно фактическое состояние кода, если есть незафиксированные изменения. Поэтому мне нужна автоматическая проверка программы непосредственно перед тем, как она начнет анализ. Я могу использовать repo.is_dirty() для проверки незафиксированных изменений в репо. Но это слишком много проверок. Помимо основного пакета, есть еще куча разных файлов. Тестирование, другие сценарии анализа, использующие этот основной пакет, и т. д. И они не обязательно должны быть полностью зафиксированы, но они вызовут is_dirty(). Как мне проверить только нужные файлы?
Итак, если моя файловая система выглядит так:
Код: Выделить всё
Repo folder
|- package_folder
|- __init__.py
|- module1.py
|- module2.py
|- ...
|- some_analysis_script1.py
|- some_analysis_script2.py
|- some_testing.py
|- ...
Я хотел бы проверить только содержимое package_folder. Получить список файлов можно с помощью os.listdir, но как проверить, какие из них были изменены?
Подробнее здесь:
https://stackoverflow.com/questions/786 ... ing-python