Многопоточность для подсчета повторений символов в файле

Многопоточность для подсчета повторений символов в файле ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Многопоточность для подсчета повторений символов в файле

Цитата

Сообщение Anonymous » 18 ноя 2024, 15:58

Я пытаюсь использовать многопоточность в Python, чтобы просмотреть большой файл текста (символов) и подсчитать повторения одних и тех же символов. По сути, это воссоздание метода string.count(char), но вместо просмотра строки он будет проходить через файл и проверять наличие повторений. Поскольку файл может быть очень большим, я пытаюсь использовать модули Python Threading, чтобы иметь несколько читателей в файле, чтобы я мог использовать несколько потоков, которые учитываются в разных частях файла, так что каждый поток отвечает за определенную часть файла. файл.
Я создал следующие вспомогательные методы, которые помогут мне в этом:

Код: Выделить всё

#get a list of positions so that the file can be divided to chunks of chunksize
def getpos(fnom, chunksize):
pos = []
curr = 0;
read = 0

f = open(fnom, 'r')
while True:
ch = f.read(1)
curr = curr+1
read = read +1
if not ch:
pos.append(curr-1)
break
if(read >= chunksize):
pos.append(curr)
read = 0
return pos

#find recurrences of b in chunks of the file, starting at pos and with a max size of each chunk being csize
def counter(f, pos, csize, b):
sub = ''
curr = 0
end = pos+csize

f = open(f, 'r')
while True:
ch = f.read(1)
curr = curr+1
#print(curr)
if not ch:
break
if(curr >= pos and curr < end):
sub += ch

recurr = sub.count(b)
return recurr

Таким образом, counter() может анализировать фрагменты файла и получать повторения в этом фрагменте, которые могут выполняться в потоке. А getpos() может помочь в настройке разделения файла на фрагменты, после чего каждый поток сможет получить фрагмент для обработки.
Будет ли это работать:

Код: Выделить всё

def total_counter(fnom, b):
threads = []
pos = getpositions(fnom, 8)
for i in pos:
t = threading.Thread(target=chunk_counter, args=(fnom, i, 8, b))
threads.append(t)
t.start()

Как мне настроить его, чтобы я мог использовать описанное выше для методов с несколькими потоками и обрабатывать файл для подсчета повторений символа?

Подробнее здесь: https://stackoverflow.com/questions/436 ... -in-a-file

1731934709

Anonymous

Я пытаюсь использовать многопоточность в Python, чтобы просмотреть большой файл текста (символов) и подсчитать повторения одних и тех же символов. По сути, это воссоздание метода string.count(char), но вместо просмотра строки он будет проходить через файл и проверять наличие повторений. Поскольку файл может быть очень большим, я пытаюсь использовать модули Python Threading, чтобы иметь несколько читателей в файле, чтобы я мог использовать несколько потоков, которые учитываются в разных частях файла, так что каждый поток отвечает за определенную часть файла. файл.
Я создал следующие вспомогательные методы, которые помогут мне в этом:
[code]#get a list of positions so that the file can be divided to chunks of chunksize
def getpos(fnom, chunksize):
pos = []
curr = 0;
read = 0

f = open(fnom, 'r')
while True:
ch = f.read(1)
curr = curr+1
read = read +1
if not ch:
pos.append(curr-1)
break
if(read >= chunksize):
pos.append(curr)
read = 0
return pos

#find recurrences of b in chunks of the file, starting at pos and with a max size of each chunk being csize
def counter(f, pos, csize, b):
sub = ''
curr = 0
end = pos+csize

f = open(f, 'r')
while True:
ch = f.read(1)
curr = curr+1
#print(curr)
if not ch:
break
if(curr >= pos and curr < end):
sub += ch

recurr = sub.count(b)
return recurr
[/code]
Таким образом, counter() может анализировать фрагменты файла и получать повторения в этом фрагменте, которые могут выполняться в потоке. А getpos() может помочь в настройке разделения файла на фрагменты, после чего каждый поток сможет получить фрагмент для обработки.
Будет ли это работать:
[code]def total_counter(fnom, b):
threads = []
pos = getpositions(fnom, 8)
for i in pos:
t = threading.Thread(target=chunk_counter, args=(fnom, i, 8, b))
threads.append(t)
t.start()
[/code]
Как мне настроить его, чтобы я мог использовать описанное выше для методов с несколькими потоками и обрабатывать файл для подсчета повторений символа? 

Подробнее здесь: [url]https://stackoverflow.com/questions/43690408/multi-threading-to-count-recurrences-of-characters-in-a-file[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как генерировать все комбинации набора символов без повторений?

Последнее сообщение Anonymous « 07 июл 2025, 09:58
Добавлено в форуме Python

Anonymous » 07 июл 2025, 09:58 » в форуме Python

У меня есть следующий список:

Я смотрю на способ сгенерировать все возможные строки, которые содержат эти символы со следующими ограничениями:

Символ может не произойти несколько раз (aab , aba , abca и т. д. недопустим)
Символ может...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
07 июл 2025, 09:58
Мерсенн против Ранда: почему при использовании Мерсенна я получаю больше последовательных повторений по сравнению с Ранд

Последнее сообщение Anonymous « 20 мар 2024, 06:47
Добавлено в форуме C++

Anonymous » 20 мар 2024, 06:47 » в форуме C++

У меня есть этот алгоритм перетасовки, я пытаюсь заменить Rand на Mersenne в качестве улучшения, поскольку Mersenne более эффективен и производит больше случайности по сравнению с rand, согласно тому, что я искал. Однако, сравнивая его рядом, я...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
20 мар 2024, 06:47
Перебор списка вперед и назад без повторений

Последнее сообщение Anonymous « 27 янв 2025, 14:13
Добавлено в форуме JAVA

Anonymous » 27 янв 2025, 14:13 » в форуме JAVA

Я хочу перебирать список значений вперед и назад. Проблема в том, что когда я меняю направление, я получаю тот же элемент
List strings = Arrays.asList( 1 , 2 , 3 );
ListIterator listIterator = strings.listIterator();
String first =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 янв 2025, 14:13
Итерация над списком взад -вперед без повторений

Последнее сообщение Anonymous « 27 янв 2025, 14:36
Добавлено в форуме JAVA

Anonymous » 27 янв 2025, 14:36 » в форуме JAVA

Я хочу перебирать список значений вперед и назад. Проблема в том, что когда я меняю направление, я получаю тот же элемент
List strings = Arrays.asList( 1 , 2 , 3 );
ListIterator listIterator = strings.listIterator();
String first =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 янв 2025, 14:36
Лучшие практики для внедрения сроков и повторений для GRPC [закрыто]

Последнее сообщение Anonymous « 05 фев 2025, 08:41
Добавлено в форуме C#

Anonymous » 05 фев 2025, 08:41 » в форуме C#

Я работаю над некоторым старым кодом GRPC и новичок в пространстве. У сервера возникают некоторые проблемы, отвечающие на запросы до крайнего срока (тайм -аут), и я пытаюсь отследить проблему.
Вот некоторые из журналов, которые у меня есть:...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 08:41

Вернуться в «Python»