Scraper Video Tutorials

seo101

Client
Регистрация
03.02.2011
Сообщения
2
Благодарностей
0
Баллы
0
Hi,

Can we have video tutorials on scraping ? Perhaps, you can use google as an example. Also, is it possible if google show the anti-bot (http://www.google.com/sorry/) we can type in the captcha so we can continue scraping using the same session.

Thanks
 

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113

Perropoly

Client
Регистрация
21.01.2011
Сообщения
4
Благодарностей
0
Баллы
0
I'm working in a little scraper for Gamespot forums with Zennoposter, the logic seems ok, the regexp is working fine in the regular expression builder, but when I debug the template it only scrape the first title on every page.

The regexp is as follows:

Код:
(?<=\<TD class\=topic\>\<A class\=\".*\" href\=\"http:\/\/www\.gamespot\.com\/pages\/forums\/show_msgs\.php\?topic_id\=\d+&amp;tag\=topics%3Btitle\"\>).*(?=\<\/A\> \<SPAN)
 

Вложения

Perropoly

Client
Регистрация
21.01.2011
Сообщения
4
Благодарностей
0
Баллы
0
A friend suggest to add "-|-all-" and it works fine now.
 

dongle132

Client
Регистрация
22.01.2011
Сообщения
35
Благодарностей
0
Баллы
0
May I ask where you've placed the "-|-all-" ?!
I have the same problem and tried it in the parameters field with the regex but it does not work.
THX
 

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113

dongle132

Client
Регистрация
22.01.2011
Сообщения
35
Благодарностей
0
Баллы
0

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83
Sorry but it does not work for me:

I've tried:

(?<=\>\<A href\=\").*(?=\" target\=_blank\>http)-|-all-
(?<=\>\<A href\=\").*(?=\" target\=_blank\>http-|-all-)

Maybe you can have a look at the example template I've created to show me where to set the -|-all- correct?!
Thanks in advance.
After regex
(?<=\>\<A href\=\").*(?=\" target\=_blank\>http)-|-all
 

Вложения

dongle132

Client
Регистрация
22.01.2011
Сообщения
35
Благодарностей
0
Баллы
0
:-) oh lord ... one simple "-" to much

MY (WRONG): (?<=\>\<A href\=\").*(?=\" target\=_blank\>http)-|-all-
YOU (CORRE): (?<=\>\<A href\=\").*(?=\" target\=_blank\>http)-|-all

THANKS!!
 

seo101

Client
Регистрация
03.02.2011
Сообщения
2
Благодарностей
0
Баллы
0
Thanks guys for sharing this. At least I have something to start with now.
 

dongle132

Client
Регистрация
22.01.2011
Сообщения
35
Благодарностей
0
Баллы
0

jp1

Client
Регистрация
23.01.2011
Сообщения
234
Благодарностей
2
Баллы
0

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)