У меня есть набор данных из 100 тыс.+ строк, который содержит информацию о нашем трубопроводе, например, является ли возможность активна или нет, и почему. Многие из этих возможностей отмечены как неактивные, потому что они являются «дубликатами» других возможностей. Я разрабатывал алгоритм, который оценивает, может ли каждая возможность, отмеченная как дубликат, на самом деле будет дубликатом, или они просто скрывают другую причину, по которой такая возможность не продолжается, такая как они потеряли ее. В разработке, чтобы оценить, перекрываются ли критерии, такие как имена проектов, доход проекта, клиент и т. Д., И я не такой гений.
Подробнее здесь: https://stackoverflow.com/questions/795 ... ecks-wheth
Как разработать алгоритм Python для набора данных из 100 тыс.+ Строк, который проверяет, смутно ли строки в поддатазите ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Kafka Streams Consumer постоянно перебалансирует более 100 тыс. пакетов в секунду
Anonymous » » в форуме JAVA - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Kafka Streams Consumer постоянно перебалансирует более 100 тыс. пакетов в секунду
Anonymous » » в форуме JAVA - 0 Ответы
- 22 Просмотры
-
Последнее сообщение Anonymous
-