Парсинг в многопотоке. Подскажите как правильно?

mavar

Client
Регистрация
28.05.2014
Сообщения
70
Благодарностей
4
Баллы
8
Задача: нужно быстро спарсить большой сайт.

Дано:
- Блокируют IP через 1000 запросов на некоторое время.
- у меня есть список 200 проксей.
- список урлов этого сайта в 500 000 строк

Вопрос: Как реализовать проект, чтобы запустить 100 потоков и каждый поток работал только со своим прокси и запросом из списка? Главное чтобы не пересекались потоки между собой, а работали как будто 100 разных проектов.

Не могу сообразить, как каждый поток будет работать с одним списком одновременно?
 

4iloveg

Client
Регистрация
22.09.2016
Сообщения
83
Благодарностей
28
Баллы
18
ну у тебя же поток в начале может удалить строку из файла. Т.е. он удаляет строку и заносит ее в переменную, после чего работает с ней. Другой поток уже с другой строкой будет работать.
 

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 956
Благодарностей
781
Баллы
113
список прокси в файле и берешь с удалением, когда файл заканчивается копируешь его из исходного (запасного, который спецом для копирования)
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 613
Благодарностей
4 601
Баллы
113
список прокси в файле и берешь с удалением, когда файл заканчивается копируешь его из исходного (запасного, который спецом для копирования)
или просто берешь прокси с удалением и тут же записываешь его в конец списка
 

mavar

Client
Регистрация
28.05.2014
Сообщения
70
Благодарностей
4
Баллы
8
Спасибо парни, идея ясна. Пошел пилить
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)