Мне нужно обработать очень большое количество файлов PDF, и мне нужно избавиться от всех пустых страниц с очень меньшей вероятностью ошибок (такие ошибки, как пустое страница и удаление страницы содержимого). Вот тот, который я сейчас использую: < /p>
Код: Выделить всё
def is_blank(image, threshold=0.01):
try:
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
_, threshed = cv2.threshold(gray, 245, 255, cv2.THRESH_BINARY)
non_white_ratio = 1 - (cv2.countNonZero(threshed) / (image.shape[0] * image.shape[1]))
return non_white_ratio < threshold
except Exception as e:
print(f"Error in is_blank: {e}")
return False
Подробнее здесь: https://stackoverflow.com/questions/796 ... ss-compute