Откуда берутся дубли?

krolist

Новичок
Регистрация
05.11.2015
Сообщения
12
Благодарностей
2
Баллы
3
Всем привет. Делаю так:
1)беру первую строку из списка1 с удалением(строка содержит URL)
2)открываю этот урл
3)беру DOM данные этой страницы, регуляркой нахожу нужное(id номера), пишу их в список2
4)список2 сохраняю в файл(галка дописать в файл)
5)возвращаюсь на пункт1 (цикл с выходом по ошибке, пока не кончатся строки в списке1)

...получаю файл с кучей дублей, не понимаю откуда они там, хотел отсылать сообщения по такому же алгоритму, но совсем не надо чтобы человеку приходило по 5 одинаковых писем)))
 

qzen4i

Client
Регистрация
01.05.2014
Сообщения
1 404
Благодарностей
313
Баллы
83
Всем привет. Делаю так:
1)беру первую строку из списка1 с удалением(строка содержит URL)
2)открываю этот урл
3)беру DOM данные этой страницы, регуляркой нахожу нужное(id номера), пишу их в список2
4)список2 сохраняю в файл(галка дописать в файл)
5)возвращаюсь на пункт1 (цикл с выходом по ошибке, пока не кончатся строки в списке1)

...получаю файл с кучей дублей, не понимаю откуда они там, хотел отсылать сообщения по такому же алгоритму, но совсем не надо чтобы человеку приходило по 5 одинаковых писем)))
Может просто удалить дубли в списке да и все?
 

sof

Client
Регистрация
15.04.2013
Сообщения
831
Благодарностей
184
Баллы
43
А запускаешь в несколько потоков? Попробуй брать случайную строку с удалением если шаблон не зациклен.
 

krolist

Новичок
Регистрация
05.11.2015
Сообщения
12
Благодарностей
2
Баллы
3

krolist

Новичок
Регистрация
05.11.2015
Сообщения
12
Благодарностей
2
Баллы
3

nole

Client
Регистрация
19.11.2010
Сообщения
368
Благодарностей
215
Баллы
43
похоже что просто список2 не очищаешь, между 4 и 5 добавь очистку
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
554
Баллы
93
Возможно регулярка берёт несколько ID из разных мест в DOM отсюда и дубли. Посмотри внимательно, DOM и Source могут по разному парситься.
 

krolist

Новичок
Регистрация
05.11.2015
Сообщения
12
Благодарностей
2
Баллы
3

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)