A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
Что такое A-Parser?

Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:

Поисковые системы

  • Google
  • Bing
  • Yahoo
  • Yandex
  • QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
  • AOL - парсер search.aol.com, этот поисковик использует американскую выдачу Google

Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц

Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу

Для Яндекса есть возможность распознавания каптчи через сервис AntiGate(или любой другой с поддержкой их API)

Парсеры кейвордов

Сервисы поиска ключевых слов

  • Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики. Может сам подставляет найденные ключевые слова в запросы до указанного уровня.

Подсказки поисковых систем

  • Подсказки и релейтед кеи Google
  • Подсказки и релейтед Bing
  • Подсказки, релейтед и трендовые кеи Yahoo
  • Подсказки и релейтед Yandex

Для подсказок Google и Yandex умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится

Параметры сайтов и доменов

  • Rank::Alexa - парсер Alexa Rank, парсит глобальный рейтинг, топ рейтинг по стране, саму страну и количество бек-линков
  • Rank::MajestiSEO - парсер количества беклинков с сервиса majesticseo.com, парсит количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов
  • Rank::SEMrush - проверяет рейтинг SEMrush, количество SE траффика и его стоимость, количество Ads траффика и его стоимость
  • Rank::OpenSiteExplorer - проверяет рейтинг домена\страницы по OpenSiteExplorer, а так же количество беклинков и бекдоменов
  • SE::Google::Position - проверка позиции домена по ключевому слову в Google
  • SE::Yandex::Position - проверка позиции домена по ключевому слову в Yandex
  • SE::QIP::Position - проверка позиции домена по ключевому слову в search.qip.ru
  • SE::Google::PageRank - PR страниц и доменов
  • SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
  • SE::Yandex::TIC - проверка тематического индекса цитирования домена в Яндексе(тИЦ)
  • SE::DMOZ - наличие сайта в каталоге DMOZ
  • SE::Google::TrustCheck - проверка сайта на траст(доверие) гугла(дополнительный блок ссылок в выдаче и т.п.)
  • Net::Whois - определяет зарегистрирован домен или нет, а так же дату окончания регистрации
  • SE::Bing::LangDetect - определение языка сайта через поисковик Bing
  • Net::DNS - парсер резолвит домены в IP адреса
  • Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching
  • Rank::CMS - определение около 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков


Парсеры различных сервисов

  • SE::YouTube - полноценный парсер YouTube, парсит ссылку на ролик, титл, описание, длину ролика, дату добавления, имя пользователя и количество просмотров. Поддерживает все фильтры YouTube
  • SE::Google::Maps - парсер ссылок в результатах выдачи в картах Гугла(Google Maps), позволяет искать сайты привязанные к определенной местности
  • SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу
  • SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер
  • SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
  • Util::AntiGate - распознавание каптчи через сервис AntiGate, служит для настройки и тестирования распознавания каптч

Парсинг контента

  • HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного сайта, может ходить по внутренним ссылкам до выбранного уровня.
  • Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.

Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.

Обработка и фильтрация результатов

  • Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
  • Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
  • Парсинг любого результата с использованием регулярных выражений.

Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:

  • Полностью интерактивный мега-юзабильный веб интерфейс
    • Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
    • Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
    • Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
    • Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
    • Поддержка русского и английского языка
  • Огромная скорость работы, подробнее тут: Производительность
  • Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
  • User API - интеграция возможностей парсера в свои скрипты, подробнее тут: User API, взаимодействие с другими программами и скриптами
  • Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
  • Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
  • Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki

Более подробное описание и скриншоты

Wiki - дополнительная информация, инструкции и т.д.

Скриншот интерфейса:


На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременная уникализация по домену всех результатов

Ценовая политика

На данный момент продается версия Pro(все парсеры) и Enterprise(все парсеры + API)
  • Цена лицензии - 200$
  • Первый год обновления бесплатны, после первого года использования абонентская плата за обновления - 15$ за каждые 3 месяца(возможность работы без обновлений сохраняется)
  • Цена лицензии с API: +50$ к стоимости основной лицензии
  • Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$
  • Комплект A-Parser + A-Poster всего за 300$!
  • Специальное предложение - всем покупателям A-Parser'а предоставляются приватные прокси на 20 потоков на 2 недели!

Лицензия позволяет запускать A-Parser на одном сервере\компьютере(напоминаю поддерживается работа на всех версиях Windows и Linux). Переносить можно бесплатно, нельзя запускать на нескольких компьютерах одновременно.

Для покупки парсера зарегистрируйтесь на сайте http://a-parser.com и свяжитесь со мной по любому из следующих контактов:
Предварительно перед покупкой с удовольствием отвечу на любые ваши вопросы, а также возможно обсуждение реализации недостающего вам функционала.
 
Последнее редактирование модератором:

koster

Client
Регистрация
30.09.2010
Сообщения
137
Благодарностей
3
Баллы
18
Forbidden , привет! :-) Поддержу тему. Рекомендую парсер! Автор очень отзывчивый и обязательный человек, трудоголик, которых поискать нужно. В приватном разделе софта есть возможность оставить свои замечания и пожелания по парсеру, написать пожелания о новых модулях, которые автор исполняет очень быстро. Также есть возможность обсудить с другими участниками улучшения уже имеющихся модулей, ведь только в спорах рождается истина.
Присоединяйтесь в ряды пользователей A-parser и вы не пожалеете. Скорость и функциональность данного софта на высоте! Работает также замечательно как в Windows так и Unix ОС.

Пишу отзыв чтобы все понимали что это за продукт, ведь чем больше клиентов будет у Forbidden (автора A-parser), тем больше будет разнообразных модулей и интересных идей. Никогда не приходилось пользоваться настолько быстрым парсером. В A-parser кроме парсера большинства ПС (Яндекс, Google, Yahoo, QIP, Bing, AOL) есть парсер Wordstat, парсер подсказок, чек whois (занятость домена), PR, ТИЦ, в парсере Wordstat и подсказках Google можно задать глубину парсинга, тем самым достигается выборка полных результатов, а также в A-parser гибкая настройка вывода результатов. В данный момент в приватном разделе парсера обсуждается написание модуля проверки обратных ссылок (nofollow, noindex, robots.txt, код 200). Также ещё модули, о которых пока не буду писать. На скринах ниже продемонстрирую вам работу и опишу часть полезных фич данного парсера.
1) Можно парсить сразу несколько ПС например или сервисов, скоро будет фича чтобы из одного парсера передавались параметры в другой, например результаты из Parser1 можно будет передать в Parser2.

2) Возможность выбора региона выдачи Яндекса, а также домен yandex.ru, yandex.by, yandex.ua



3) Возможности выбора домена, языка, страны в ПС Google:




4) Возможность выбора языка и домена для парсера Подсказок ПС Google, а также выбор глубины парсинга:

5) Возможность выбора региона в Wordstat:


6) Возможность добавления собственного GET параметра к запросам:

7) Очень быстрый модуль определения CMS сайтов:



Переходим к тесту: соберём запросы из wordstat по ключу - пластиковые окна:
Процесс работы парсера в 400 потоков:


Результат работы, задание перешло в "Завершённые", где имеется удобная кнопочка Download:


Результат работы по запросу можно скачать здесь: скачать. Остаётся только запустить Excel и разделить там строки по столбцам, указав в качестве разделителя точку с запятой.
Я описал лишь часть возможностей, также во всех ПС предусмотрен парсинг анкоров/сниппетов. Конкуренция/частота в Wordstat. Также можно самому настройть парсинг любых ресурсов, за исключения тех, где информация выводится на ajax (там только Zennoposter/HumanEmulator).
Рекомендую всем к покупке A-parser. Постоянно выходят новые модули, новые фишки. В очередном обновлении написан новый модуль ютуба с сортировкой по длине, качеству ролика и прочих параметров. Повторюсь: чем нас (покупателей) будет больше, тем больше будет новых идей и новых модулей в A-parser.

Постоянно ведется разработка новых функций, добавление новых парсеров и исправление ошибок, убедится в этом можно на странице http://a-parser.com/projects/a-parser/news

Присоединяйтесь! :-)
 
  • Спасибо
Реакции: Andrew Shell

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 0.9.370

Большое обновление интерфейса

  • Просмотр настроек задания
  • Редактирование созданного задания
  • Копирование заданий
  • Минимизация заданий
  • Перемещение заданий в очереди вверх/вниз
  • Просмотр текущего запроса целиком при наведении курсора
  • Возможность удаления задания из очереди завершённых заданий
  • Увеличение скорости работы интерфейса

Другие улучшения

  • В парсер
    SE::Yandex::WordStat добавлена поддержка распознавания каптчи через АнтиКаптчу, аналогично как сделано для парсера
    SE::Yandex
  • Теперь можно указывать разные данные для авторизации прокси в формате [noparse]login:[email protected]:port[/noparse]
  • Улучшена скорость при сохранении прогресса задания

Исправления

  • Добавлена поддержка авторизации для HTTP прокси при использовании CONNECT метода
  • Исправлен подсчёт результатов при использовании двух и более парсеров одновременно
  • Исправлен подсчёт средней скорости задания, теперь она считается с момента последнего старта задания
  • Исправление медленного регулярного выражения в парсере
    SE::Bing

Связанные задачи:
Ошибка #377: Fix results formating with some parsers(Net::Whois, ..)
Ошибка #378: Add support for proxy authorization with CONNECT method
Ошибка #379: Fix auth support for socks proxies
Ошибка #384: Unique URL count is inaccurate when using 2+ Parser
Ошибка #386: Fix wrong avg speed calculating(from task add time, now calc from start time)
Ошибка #390: Fix long running regex for SE::Bing
Улучшение #3: wait for stable ext js 4.1 and migrate
Улучшение #100: Implement task conf view in queue
Улучшение #101: Implement task edit
Улучшение #102: More logs usability + integration with queue
Улучшение #103: Move tasks in queue
Улучшение #143: Show full query on mouse over on Current query in Queue + truncate query to length of field
Улучшение #276: Stopped task in Active list - allow minimize (now all tasks can be minimized)
Улучшение #381: Wordstat + antigate
Улучшение #382: Прокси с разными данными для авторизации
Улучшение #383: Allow delete tasks from completed queue
Улучшение #387: Improve interface speed(when show big configs of tasks/proxychecker/parsers/etc)
Улучшение #388: Add posibility for copying tasks
Улучшение #389: Improve speed of saving/loading tasks
Улучшение #391: Flush results when pause/stop task
 

Hungry Bulldozer

Moderator
Регистрация
12.01.2011
Сообщения
3 445
Благодарностей
825
Баллы
113
Прекрасный парсер. Рекомендую.
 

www

Client
Регистрация
09.02.2012
Сообщения
48
Благодарностей
9
Баллы
8
В сравнении с хрефером - небо и земля по скорости, не говоря уже о кол-ве модулей, которые регулярно обновляются и пополняются. Аналогов на данный момент походу нет.
 

koster

Client
Регистрация
30.09.2010
Сообщения
137
Благодарностей
3
Баллы
18
Сегодня написал в ICQ автору A-Parser, что в модуле парсера Google Images перестало работать определение одного параметра, он тутже исправил и выдал рабочий вариант! Оперативность на высоте!
Ранее я писал что в приватном разделе обсуждается написание модуля обратных ссылок. Так вот, модуль уже создан и успешно работает! :-)
Тестировал его пока ещё на слабеньких объёмах (3000 страниц - 200 потоков - меньше чем за 2 минуты), не затыкается, как некоторые отдельные программы, не вылетает и скорость на высоте!! Лучшего чекера обратных ссылок не видел :-)
Возможности нового модуля Check:BackLink:
1) Определяет наличие ссылки на странице, закрыта ли страница от индексации в Robots.txt, закрыта ли ссылка на странице в <noindex> или rel=nofollow
2) Есть возможность задать свой юзерагент.
3) Считает кол-во внутренних и кол-во внешних ссылок на странице где установлена наша ссылка.
Применение модуля:
1) Для тех, кто покупает ссылки в биржах этот модуль просто необходим!
2) Хрумоводам :-) для чека профилей и прочего )
Скриншоты:


 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 0.9.383

Добавлен парсер
Check::BackLink - проверяет нахождение вашей ссылки(ссылок) по базе ссылок:
  • Проверяет закрыта ли от индексации страница через robots.txt
  • Проверяет meta тег robots на наличие атрибутов noindex и nofollow
  • Проверяет наличие rel=nofollow у найденной ссылки

Парсер
Rank::Ahrefs возвращен обратно

Теперь парсер
собирает до 1000 результатов с каждого запроса

Так же значительно обновлена Документация, теперь она готова примерно на 70%, а в скором времени будет приятное обновление сайта.

Исправлено:
  • Импортированние пресетов заданий не работало, ошибка появилась в предыдущей версии
  • Исправлен парсер
    SE::AOL - теперь требуется гораздо меньше попыток на выполнение запроса

Связанные задачи:
Ошибка #402: Import preset not work
Ошибка #406: Fix parser crash when start paused task after server restart
Ошибка #418: Дубли имен заданий на закладке "Добавить" в поле "Сохр. задание"
Ошибка #419: Fix {size} result in SE::Google::Images
Ошибка #420: Remove unsupported 'deflate' method from accept-encoding header
Ошибка #421: Fix SE::AOL parser
Улучшение #254: Проверка базы ссылок на наличие обратной ссылки + noindex + nofollow
Улучшение #393: Return Rank::Ahrefs parser
Улучшение #403: Now SE::Yandex can parse up to 1000 links per query
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3


Прошёл ровно год с выхода первой бета-версии парсера, за это время A-Parser вырос до стабильной версии и зарекомендовал себя с лучшей стороны среди SEO-гуру, оставив всех конкурентов далеко позади.

Всего за год была проделана огромная работа:
  • Выпущено 39 обновлений
  • Сделано 195 улучшений
  • Закрыта 141 ошибка

Теперь A-Parser содержит в себе 40 полноценных парсеров поисковых систем и различных сервисов.

В честь такого праздника всем новым пользователям, которые приобретут A-Parser в период с 13.03.2013 до 20.03.2013, предоставляется 2 года бесплатных обновлений.
 

rostonix

Administrator
Команда форума
Регистрация
23.12.2011
Сообщения
29 064
Благодарностей
5 580
Баллы
113
Поздравляю! И желаю успехов! Надеюсь на дальнейшее развитие программы. Не понимаю как жил без нее раньше )

:az:
 

7make

Moderator
Регистрация
25.06.2011
Сообщения
1 518
Благодарностей
1 223
Баллы
113
Поздравляю!
Парсеру исполнилось не только 1 год, он стал парсером №1 за это время!.
Для меня, этот парсер стал не просто парсилкой, а удобным инструментом для сбора аналитических данных.
Советую всем!
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 0.9.389

Парсер
SE::Google теперь поддерживает распознавание каптчи через сервис АнтиКаптча


В парсере
Net::HTTP появилась возможность загружать только заголовки страницы, для увеличения скорости и экономии трафика

Парсер
SE::Yandex теперь парсит время индексации страницы, с возможностью фильтрации результатов по этому параметру


Улучшен парсер
Check::BackLink:
  • Теперь можно определить был ли редирект на странице нахождения беклинка
  • В результат можно вывести актуальные ссылки страницы беклинка и проверяемой ссылки, а так же анкор проверяемой ссылки
  • Можно вывести весь список найденных ссылок(анкоров и nofollow) подпадающих под проверяемую ссылку

Добавлена кнопка выхода из парсера(повторный запрос пароля)

Исправлен парсер
HTML::LinkExtractor - при использовании опции перехода по соседним ссылкам неверно добавлял дополнительные ссылки.

Связанные задачи:
Ошибка #427: Fix HTML::LinkExtractor parse to level option(wrong anchors adding to parsing queue)
Улучшение #401: Подключение antigate.com к парсеру Google
Улучшение #414: Сделать парсер http заголовков
Улучшение #416: Яндекс - дата индекса ссылки
Улучшение #422: сделать кнопку логаута
Улучшение #423: Улучшение модуля Check::BackLink
Улучшение #428: Normalize urls for HTML::LinkExtractor and Check::BackLink
 
  • Спасибо
Реакции: ustas

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
Расширение функциональной части A-Parser'а подтолкнуло меня на изменение мажорной версии :-) Встречайте версию 1.0.0!



Главное нововведение - конструктор запросов:



Конструктор запросов позволяет разделять исходный запрос на части и\или преобразовывать запросы. Основные возможности:

  • Разделение запроса на части с помощью регулярного выражения
  • Замена подстроки в запросе или замена регулярным выражением
  • Выделение домена\главного домена из ссылки
  • Добавление знака ! перед каждым словом в запросе(необходимо для парсера
    SE::Yandex::WordStat)
  • Приведение запроса к верхнему\нижнему регистру

Более подробно и с примерами можно прочитать на странице документации: Query Builder - конструктор запросов

Забегая вперёд расскажу о ближайших планах расширения функциональности:
  • Конструктор результатов - аналогично с запросами, только применимо к результатам, например будет возможно автоматически вырезать HTML теги из сниппетов
  • Парсинг цепочками - многоэтапная обработка запросов, когда результат от одного парсера будет подаваться на вход другому. Позволит объединить несколько действий в одном задании, например сбор ключевых слов и одновременная проверка частоты и конкурентности

Это приоритетные направления, помимо этого в задачах ещё множество идей которые будут воплощены в жизнь :-)

Другие изменения в этой версии:
  • Число результатов в парсере
    SE::QIP автоматически преобразовывается из строк "миллионов" и "тысяч"
  • Исправлен парсер
    Rank::Alexa в связи с изменением выдачи
  • Исправлен парсер
    SE::Yandex - на некоторых запросах мог долго обрабатывать страницу что приводило к зависанию

Связанные задачи:
Ошибка #430: Fix Rank::OpenSiteExplorer crash when IP banned
Ошибка #431: не правильный парсинг Алекса Ранк
Ошибка #432: 2 запроса {query}
Ошибка #437: Check::BackLink падает на некоторых ресурсах
Ошибка #438: Fix long SE::Yandex regex
Улучшение #380: Query builder
Улучшение #433: Число страниц определенного сайта в индексе Qip выводить числом
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 1.0.11

Обновилось API, добавлено 3 метода:
  • addTask - полноценное добавление задания, со всеми настройками
  • getTaskState - получение состояния задания(статистика выполнения, текущий статус)
  • changeTaskStatus - изменение статуса задания(пауза\старт\стоп\удаление)
Подробнее на страницы руководства: User API, взаимодействие с другими программами и скриптами

В конструкторе запросов теперь возможно разделять запрос через произвольный разделитель

Парсер
SE::YouTube теперь дополнительно парсит ссылку на превью ролика

Исправлено:
  • Парсер
    SE::YouTube в связи с изменением верстки
  • Парсер
    SE::Yandex - исправлено определение даты попадания в индекс

Связанные задачи:
Ошибка #412: Can't edit task created from quick task menu
Ошибка #413: In quick task need to set unique queries for Parse to level with suggests
Ошибка #440: Fix {origquery} macros(bug introduced in 1.0.0)
Ошибка #445: Не работает парсер Youtube
Ошибка #449: SE::Yandex: баги с поиском даты
Улучшение #273: в API нету добавления задания
Улучшение #439: Разделение запроса через произвольный разделитель
Улучшение #441: сохранение прокси без указания типа(http://, socks://)
Улучшение #444: Парсер Youtube - ссылка на превью ролика
Улучшение #446: Get task state and change task status with API
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 1.0.21

Улучшения:
  • Парсер
    Rank::MajesticSEO теперь также парсит показатели Trust Flow и Citation Flow
  • Возможность выбора языка результатов для парсеров
    SE::Yahoo и
    SE::Yahoo::Suggest
  • В парсер
    SE::Yandex добавлена поддержка домена yandex.kz
  • Теперь возможно вручную указать прокси для любого запроса, для этого необходимо создать результат {proxy} через Query Builder
  • В парсер
    Net::HTTP добавлена опция Detect charset on content, позволяющая автоматически определять кодировку страницы
  • В парсер
    Net::HTTP добавлен результат {proxy}, позволяющий отобразить использованный прокси при запросе
  • В API теперь возможно добавлять задания на основе ранее сохранённого пресета из интерфейса

Исправления:
  • SE::AOL в связи с изменениями в выдачи
  • SE::Google - исправлен парсинг Related keywords
  • Исправлено определение кодировки через тег <meta charset=

Ошибка #447: AOL parser not work again
Ошибка #452: Fix charset detecting for <meta charset= tag
Ошибка #460: Fix related keywords parsing in SE::Google
Улучшение #450: Добавить в модуль Net::HTTP {proxy}
Улучшение #451: Смена языка во всех парсерах yahoo(SE::Yahoo, SE::Yahoo::Suggest)
Улучшение #453: Добавить в Rank::MajesticSEO парсинг показателей Trust Flow и Citation Flow
Улучшение #454: API addTask брать настройки из Task preset
Улучшение #455: Ability for select save good proxies with type or not
Улучшение #456: Add yandex.kz domain for SE::Yandex
Улучшение #457: Add 'Detect charset on content' for Net::HTTP - automaticaly detect charset of content if meta charset/charset-encoding not specified
Улучшение #458: Now result {proxy} from Query Builder used as proxy for current query
 
  • Спасибо
Реакции: 7make

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 1.0.27

Results Builder - конструктор результатов, позволяет редактировать и создавать новые результаты, поддерживает:

  • Поиск и извлечение данных по регулярному выражению
  • Замена по регулярному выражению
  • Разделение строки по произвольному разделителю
  • Замена подстроки в строке
  • Извлечение домена/главного домена из ссылки
  • Приведение к верхнему\нижнему регистру
  • Удаление HTML-тегов из текста
  • Преобразование HTML-entities(спец-символов начинающихся с амперсанда &) в соответствующий UTF-8 текст

Новый парсер
SE::Google::Compromised - проверка наличия надписи This site may be compromised в гугле

Исправлено:
  • Обработка каптчи в парсере
    SE::Google
  • Парсинг ссылок в
    SE::Yandex содержащих дополнительную информацию в виде превью к играм, а так же ссылок помеченных как "инфицированные"
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - полностью обновленный сайт

Несколько важных новостей:

  • У нас полностью новый сайт, с полной интеграции с форумом. Все пользователи, новости и задачи были успешно перенесены
  • Мы подключили мерчант InterKassa, теперь мы принимаем к оплате:


    Подробнее на странице покупки A-Parser'а: Купить A-Parser
  • У нас новый саппорт: Viktoria (контакты)
  • Ко всем существующим видам связи(ICQ, Skype, Jabber, GoogleTalk, E-mail) мы добавили онлайн-чат с оператором на сайте

Подписывайтесь на новости и общайтесь на форуме!
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.37

Улучшения:
  • При добавлении быстрого задания теперь количество попыток выполнить запрос(Request retries) установлено в 200
Исправления:
  • Исправлен парсер
    SE::YouTube в связи с изменением в выдачи
  • Исправлено импортирование заданий(ошибка появилась в предыдущей версии)
  • Исправлена обработка каптчи у парсера
    SE::Google
  • Исправлен подсчет количества результатов(ошибка появилась в предыдущей версии)

Связанные задачи:
Ошибка #516: SE::YouTube broken
Ошибка #515: Bug when importing/loading tasks(introduced in 1.0.27)
Ошибка #479: Fix again Google captcha
Ошибка #478: Fix counting results from arrays(bug introduced in 1.0.27)
Улучшение #523: Tasks added from Quick Task now have Request retries = 200
Улучшение #480: Validating parser/preset exists before adding task
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 1.0.49

Улучшения в парсере гугла:
  • CaptchaKiller - убийца каптчи для парсера
    SE::Google - теперь можно парсить inurl: даже на паблик проксях!

    В последнее время Google довольно сильно ужесточил парсинг с операторами(inurl:, site: и т.д.), постоянно показывая каптчу(проверочную картинку), что не позволяло спарсить результаты выдачи без использования хороших проксей или сервиса АнтиКаптча. Это улучшение позволяет A-Parser'у автоматически обходить каптчу без использования сервисов



    Сравнение парсинга с CaptchaKiller и без на форуме
  • Теперь дополнительно парсятся рекламные блоки - ссылка, анкор и сниппет, что позволяет собрать список конкурентов в Google AdWords
  • Также парсер
    SE::Google теперь сохраняет сессии что позволяет парсить еще быстрее, получая меньшее число ошибок
Улучшения в сохранении результатов:
  • Теперь в имени файла результата можно использовать все макросы доступные в Result format, что позволяет в имени файла использовать любую часть результата или запроса(пример: при парсинге Google PR сохранять ссылки в файлы 0.txt - 10.txt, где цифра означает PageRank)
  • Теперь возможно указать папку(с неограниченной вложенностью) для сохранения результата
  • Комплексный пример: {date}_{time}/parser1({pr}).txt - будет создавать новую папку с текущей датой и временем и автоматически сортировать результаты по файлам
Остальные улучшения:
  • В качестве запросов можно использовать файлы из папки с результатами
  • В парсере
    SE::Yandex появился новый результат {misspell} определяющий посчитал ли Яндекс запрос опечаткой или нет
  • В ProxyChecker изменена проверочная ссылка по умолчанию
  • В API теперь возможно отключить ведение логов
  • В парсерe
    SE::Yahoo убраны результаты {totalcount} и trending[] в связи с изменением в выдаче
  • В ProxyChecker теперь возможно отключить проверку загруженных проксей - все прокси будут считаться живыми
Исправления парсеров в связи с изменением в выдаче:
  • SE::Bing - не парсились релейтед кейворды
  • SE::Yahoo - не парсилась основная выдача и релейтед кейворды
  • SE::AOL - не парсилась выдача
  • SE::Yandex::Suggest - в некоторых случаях не парсились кейворды
  • SE::Yandex - исправлена логика при показе каптчи
  • SE::Yandex::WordStat - исправлена логика при показе каптчи
  • SE::YouTube - не учитывались параметры фильтров
  • Rank::Alexa - не парсился основной рейтинг
  • Rank::Ahrefs - не парсилось количество беклинков

Полный список изменений тут: 1.0.49
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.60

Улучшения в CaptchaKiller для парсера
SE::Google

Исправлена загрузка каптчи в
SE::Yandex::WordStat и работа фильтров в
SE::YouTube

Полный список изменений тут: 1.0.60
 

Dodgy

Client
Регистрация
28.05.2010
Сообщения
85
Благодарностей
10
Баллы
8
Отличный парсер, перешел полностью на него!) Парсит все и вся! Форбидену респект)
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.69

Новый парсер
HTML::TextExtractor - парсит текстовые блоки с указанной страницы, можно использовать для парсинга огромного количества текста для наполнения своих сайтов и доров, можно настроить минимальную длину текстового блока для парсинга



В парсере
Net::HTTP появилась возможность использовать POST и HEAD запросы, пример парсинга с POST запросом:



Другие улучшения:

  • Теперь в формате результата есть возможность указать исходный запрос - {firstquery}, позволяет при парсинге в глубину сохранять результаты по файлам с именами изначальных запросов
  • В парсер
    Net::Whois добавлен парсинг NS серверов и статусов доменов
  • В парсере
    Net::Whois теперь используется единый формат даты регистрации и окончания регистрации - dd.mm.yyyy для всех зон
  • Новые результаты для всех парсеров:
    • {retries} - использованное количество попыток на данный запрос
    • {querynum} - порядковый номер запроса
    • {lvl} - уровень вложенности запроса(при использовании опций Parse all results, Parse to level)
  • Для парсера
    Net::HTTP добавлен параметр Max redirects count - определяет максимальное количество редиректов
  • Для всех парсеров
    SE::Google::* добавлен домен www.google.by
  • Теперь есть возможно указать задержку между запросами(актуально только при парсинге в 1 поток)
Исправления:
  • Исправлен парсинг подсказок
    SE::Bing::Suggest
  • Исправлено сохранение результатов с двоичными данными(изображения, видео и т.п.)
Подробнее тут: 1.0.69
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.71

Мини-апдейт, исправляет ошибки:
  • В предыдущей версии перестал работать
    Util::AntiGate, следствием чего перестала работать возможность распознавания каптчи(в парсерах Google, Yandex и т.п.)
  • В конструкторе результатов(Results builder) не работала функция замены по регулярному выражению(Regex Replace)
  • Парсер падал если не мог создать папку с результатами
Подробнее тут: 1.0.71

В данный момент ведется активный перенос парсера на обновленную платформу и сокращение времени выпуска новых версий(на данный момент компиляция всем пользователям занимает около 2ух дней)
 
  • Спасибо
Реакции: pakotorn

pakotorn

Client
Регистрация
17.06.2013
Сообщения
21
Благодарностей
1
Баллы
0
самое эффективное решение в сети, гибкость, простота и доступность. Сам уже полгода пользуюсь, что только на нем не творил, можно делать практически все что в голову придет. Плюс автор лично в аське все рассказывает и помогает, можно под себя парсеры заказывать, респект Форбиддену.
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.81

В этой версии только экстренные исправления в связи с изменением в выдаче:
  • SE::YouTube
  • Rank::Alexa
  • Rank::MajesticSEO
Также исправлена некорректная работа парсера при использовании UTF-8 в регулярных выражениях

Подробнее тут: 1.0.81

Перенос парсера на новую платформу, начатый около 2ух недель назад, подходит к концу и в ближайшее время будет доступна бета-версия.
 
  • Спасибо
Реакции: ustas

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.91

Новый парсер
SE::Yandex::WordStat::ByDate - парсит статистику показов ключевых слов Yandex WordStat по месяцам или неделям:



Новый парсер
SE::Baidu - парсит поисковую систему baidu.com, популярную в китае и японии:



Теперь парсер гугла
SE::Google может парсить по новостям и блогам:



Парсер Яндека
SE::Yandex дополнительно парсит рекламные объявления в выдаче:


Другие улучшения:
  • Можно выбрать несколько файлов для обработки - на каждый файл будет создано свое задание:


  • Теперь в апарсере есть новости и подсказки на английском и русском:

  • В парсере
    Net::HTTP появилась возможность указать Cookies
  • В парсер
    HTML::TextExtractor добавлена возможность отключить парсинг анкоров у ссылок
Исправления:
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена ошибка при которой парсер мог упасть при большом числе файлов запросов
  • Исправлена работа конструктора результатов Results builder при использовании макроса {query}
  • Отсутствовала прокрутка в тестовом парсинге
  • Иногда число активных заданий могло уменьшаться
Подробнее тут: 1.0.91
 
  • Спасибо
Реакции: rostonix

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
A-Parser - версия 1.0.95

Исправление парсера
SE::Yandex::WordStat - Яндекс целиком изменил сервис и мы одни из первых исправили парсер :-)
Версия с поддержкой каптчи выйдет немного позже.
Также исправлен парсинг ссылок объявлений в парсере
SE::Yandex

Подробнее тут: 1.0.95
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.99

Вновь исправлен
SE::Yandex::WordStat в связи с изменением в выдаче, также возвращена поддержка работы с антигейтом и теперь автоматически сохраняются хорошие сессии для экономии прокси и каптч

Улучшения в Extract Top Domain(в Query Builders, Results Builders и в уникализации результатов) - теперь парсер корректно определяет все региональные поддомены вида *.org.ru, *.co.uk и др.

Обновлен список языков для всех парсеров гугла
SE::Google::*

Исправления:
  • В парсере
    HTML::LinkExtractor некорректно обрабатывались ссылки mailto: и javascript:, также теперь по умолчанию этот парсер не переходит по редиректам
  • В парсере
    SE::Bing исправлена ошибка при которой A-Parser мог падать в некоторых случаях
  • Исправлено зависание при парсинге
    SE::Baidu
  • В интерфейсе иногда могли пропадать настройки парсеров
  • Исправлен
    SE::YouTube в связи с изменением в выдаче
Подробнее тут: 1.0.99
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
199
Благодарностей
23
Баллы
18
A-Parser - версия 1.0.111

Расширение API:
  • Новый метод info - получение информации о PID, версии парсера и количества заданий в очереди
  • Новый метод getTaskConf - получение полных настроек задания по его ID
  • AParser.pm - Perl модуль, реализует текущее API
Парсеры
SE::Yandex::WordStat и
SE::Yandex::WordStat::ByDate полностью исправлены после последних обновлений Яндекса. Средняя скорость проверки теперь составляет 5000 кейвордов в минуту без использования антигейта.

В парсеры
SE::Bing::Suggest и
SE::Yahoo::Suggest добавлена опция
Parse to level позволяющая автоматически подставлять найденые подсказки опять в запросы, тем самым происходит парсинг вглубь до 10 уровней вложенности

В парсере
Rank::MajesticSEO теперь можно проверить количество беклинков у конкретной страницы сайта

Исправлены:
  • [NOPARSE]SE::DMOZ[/NOPARSE] - в связи с изменение в выдаче
  • Опция Match subdomains(проверка сабдоменов) во всех парсерах позиций сайта(Positions) - ошибка появилась в предыдущей версии
Подробнее тут: 1.0.111
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)