A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере
SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы
SE:: DuckDuckGo

Обновлен список доменов гугла в парсере
SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:
  • Иногда ссылка на первый ролик в
    SE::YouTube парсилась некорректно
  • Исправлено падение в некоторых случаях после постановки задания на паузу
  • Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий
  • При дублировании задания частично пропадали настройки Results Builder
Подробнее тут: 1.0.119
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:
  • Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
  • Улучшен парсинг
    SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
  • Теперь парсер
    SE::Bing парсит до 1000 результатов с каждого запроса
  • В парсере
    [NOPARSE]SE::Google::PR[/NOPARSE] если у домена или страницы нету PageRank то в результате выведет -1
  • Парсер [NOPARSE]SE::DMOZ [/NOPARSE]переименован в
    [NOPARSE]Rank::DMOZ[/NOPARSE]
Исправления:
  • Исправлена работа уникализации результатов в тесте A-Parser'а
  • Исправлено автоматическое удаление временных файлов при работе уникализации
  • Rank::Alexa в связи с изменением в выдаче
  • SE::Google::Compromised в связи с изменением в выдаче
  • SE::QIP в связи с изменением в выдаче
  • [NOPARSE]SE::DuckDuckGo[/NOPARSE] в связи с изменением в выдаче
  • SE::Yandex::WordStat в связи с изменением в выдаче
  • [NOPARSE]Rank::DMOZ [/NOPARSE]ошибка при проверке домена с www.
  • Rank::Ahrefs в связи с изменением в выдаче
Подробнее тут: 1.0.130
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.148

Новый парсер
SE::Yandex:: Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:


На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере
HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:
  • Rank::Alexa
  • SE::Google - определение запросов по которым нет результатов
Другие исправления:
  • Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
  • При парсинге
    SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера
  • При парсинге
    SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой
  • В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)
  • Парсер
    SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)
  • Исправлено некорректное сохранение данных в UTF-8 во многих парсерах
  • Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер
SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.


На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры
SE::Yandex::WordStat и
SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!



Другие улучшения:
  • Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)
  • Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)
  • В парсер
    SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)
Исправления:
  • Исправлен парсер подсказок
    SE::Google::Suggest в связи с изменением в выдаче
  • Исправлен парсер
    SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу
  • При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы
Подробнее тут: Версия 1.0.154
 

Vital

Client
Регистрация
28.01.2013
Сообщения
190
Благодарностей
3
Баллы
18
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.180

Парсер Яндекса
SE::Yandex:
  • Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
  • Теперь яндекс гораздо реже показывает каптчу
  • Исправлена отправка каптчи в связи с изменением в выдачи
  • В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата
SE::Yandex::WordStat:
  • Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
  • Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
  • Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
  • Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
  • Небольшие улучшения в скорости работы прокси
Исправления:
  • Исправлен парсер
    SE::AOL в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    SE::Google::TrustCheck в связи с изменением в выдачи
  • Исправлено разделение логов по запросам
Подробнее тут: Изменения в версии 1.0.180
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?
За счет перебора фраз соберет гораздо больше
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе

Теперь в настройках Антигейта(
Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.

Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:


В дополнении к этому в парсере
SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):


Исправления:
  • Исправлен парсинг сниппетов в парсере
    SE::Google
Подробнее тут: Изменения в версии 1.0.183
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления

Улучшения:
  • Улучшения в работе с сессиями в парсере
    SE::Google - уменьшено использование каптч
  • Улучшения в работе с сессиями в парсере
    SE::Yandex::WordStat::ByDate - уменьшено использование каптч
  • Парсер
    Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)
Исправления:
  • В парсере
    SE::Google не распознавалась каптча
  • В парсере
    SE::Yandex не сохранялись сессии
  • HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
  • Макрос результата {firstquery} (первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
  • Исправлено определение количества результатов в выдаче в парсере
    SE::Google
  • Парсер
    SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
  • Парсер
    SE::Google::Compromised в некоторых случаях работал некорректно
  • Исправлен парсер
    SE::AOL
  • Исправлен парсер
    Rank::OpenSiteExplorer
Подробнее тут: Версия 1.0.198
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News

Улучшения
  • Полностью переписан парсер картинок
    SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
  • Парсер
    SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
  • Парсер
    HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
Исправления
  • Исправлен парсер
    SE::Bing::LangDetect в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Парсер
    SE::Google некорректно работал с каптчей при использовании регионального домена Google
  • Парсер
    SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга
Подробнее: Изменения в версии 1.0.201
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!

Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!


Интерфейс претерпел множество изменений:
  • Переработано отображение задания в очереди, теперь оно более наглядное и информативное
  • Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
  • Появилась возможность перемещать задание непосредственно в начало или в конец очереди
  • Обновлен перевод всех элементов на русский язык
  • В задании отображается прогресс в виде процента выполненных запросов
  • Иконка теперь корректно отображается во всех браузерах
  • Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
  • Исправлена ошибка в импорте пресетов
Добавлены новые парсеры, общее число парсеров перевалило за 50:
  • Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
  • SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
  • SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
  • SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
  • SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
  • Rank::Alexa::API - быстрый чекер алексы через API
Улучшения:[NOSMILES]
  • В парсер Яндекса
    SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
  • Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
  • В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
  • Добавлена возможность сохранять неудачные запросы
  • В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
  • Файл с запросами теперь можно выбирать из подпапок
  • В парсер частотности ключевых слов
    SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
  • В парсер Вордстата
    SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
Исправления:
  • Rank::MajesticSEO в связи с изменением в выдаче
  • Rank::Ahrefs в связи с изменением в выдаче
  • SE::AOL в связи с изменением в выдаче
  • Net::Whois - некорректно определял незанятые домены в некоторых зонах
  • Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
Подробнее: Изменения в версии 1.0.214
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.218

Улучшения
  • Парсер
    Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
  • Для парсера
    SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
Исправления
  • Парсер картинок
    SE::Google::Images в связи с изменением в выдаче
  • Парсер
    SE::AOL в связи с изменением в выдаче
  • При использовании API после некоторого числа запросов оно переставало отвечать
  • Парсер
    SE::Baidu в связи с изменением в выдаче
  • Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
  • Опция Try in Parser Test работала некорректно
  • Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии

Подробнее: Изменения в версии 1.0.218
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.223

Новые парсеры:
  • SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
  • Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
Исправления:
  • Парсер
    SE::AOL в связи с изменением в выдачи
  • Парсинг связанных кейвордов(related) в парсере
    SE::Bing в связи с изменением в выдачи
  • В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)

Подробнее: Изменения в версии 1.0.223
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое

Поздравляем всех защитников отечества с их профессиональным праздником!
В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
  • Поддержка переменных, условий, циклов, макросов
  • Множество встроенных функций для строк, массивов и хешей
  • Неограниченные возможности по расширению
  • Подробная документация на русском и английском языках
На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
  • Развернутый пост о преимуществах с примерами на следующей неделе
  • Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
  • Выпуск версии с поддержкой нового шаблонизатора по умолчанию
  • Помощь со стороны технической поддержки в адаптации старых проектов
Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
  • Шаблонах форматирования результатов(Result format)
  • Шаблоне имени файла(Result file name)
  • Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
  • Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
Другие улучшения:
  • Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
  • Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
  • Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
Исправления:
  • Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
  • Исправлен парсер
    SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
  • Парсер
    Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
Подробнее тут: Версия 1.0.232
 
  • Спасибо
Реакции: 7make

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Новый шаблонизатор в A-Parser

Зачем?
  • Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
  • Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
  • Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
  • Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
Массив? Переменная? Мне нужно программировать?
  • Однозначно нет :-) A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
  • Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
  • Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
Читать далее
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок

Улучшения:
  • Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
  • Многократно увеличена скорость при обработке регулярных выражений в Parse custom result
Исправления:
  • Исправлена ошибка в
    SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
  • Исправлен парсер
    SE::YouTube в связи с изменением в выдаче
  • Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
  • Исправлен регистратор аккаунтов в Яндексе
    SE::Yandex::Register в связи с изменением в выдаче
  • Исправлен парсер
    SE::Yahoo в связи с изменением в выдаче
Подробнее тут: Версия 1.0.236
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений

Основные улучшения:
  • Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
  • Полный переход на новый шаблонизатор, старый синтаксис более недоступен
  • Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
  • Создан инструмент для тестирования шаблонов, в нем можно проверить форматирование до парсинга
  • В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
  • Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
  • Теперь шаблон можно задавать в удобном многострочном редакторе
  • Увеличена скорость работы конструктора запросов и результатов
  • В парсере
    SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
Исправления в связи с изменениями в выдачи:
  • Исправлена опция эмуляции браузера для парсера
    SE::Yandex
  • Исправлен парсинг выдачи
    SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
  • Исправлен парсер тИЦ
    SE::Yandex::TIC
  • Исправлен парсер
    Rank::Ahrefs - выдавал неверные данные
  • Исправлен парсинг общего числа результатов в
    SE::Baidu
  • Исправлен парсер
    Rank:: DMOZ
  • Исправлен парсер картинок
    SE::Google::Images
  • Исправлен парсинг описаний к видео в
    SE::YouTube
Информация
  • Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
  • Все вопросы по новому синтаксису шаблонов можно задавать в этом топике
  • Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее тут
Список всех изменений в версии 1.0.268
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Новая документация и текущий статус Бета-версии

В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию

Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
Обсудить новую документацию можно на форуме

Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Новая версия Lite, автоматическая оплата прокси

  • Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
  • Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
  • Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
  • Новая сетка цен
  • Последние изменения в бета версии
  • Переработано описание парсера
Мы ждем ваших вопросов :-) наши контакты
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии



Улучшения
  • Новый парсер
    HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
  • Для парсера
    SE::Google добавлена возможность указывать локацию поиска - город или регион
  • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
  • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
  • Улучшена работа с битыми кодировками и детектирование кодировки страницы
  • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
  • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
  • Для парсера
    Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
  • Добавлена возможность выводить результаты в формате JSON
  • Новая опция Not found is error для парсера
    Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
  • Добавлена возможность удалять неиспользуемые базы данных Keep unique
  • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
  • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
  • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
Исправления
  • Исправлен парсер
    SE::Yandex в связи с переходом на новую выдачу
  • Исправлен парсер
    SE::AOL в связи с изменением в выдачи
  • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
  • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
  • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в
    SE::Yandex::WordStat
  • Net:: DNS - исправлена работа на ОС Windows
  • SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
  • Исправлено некорректное определение некоторых полей в парсере
    Net::Whois
  • Исправлена работа переменной $pagenum в парсере
    Net::HTTP
  • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
  • Задания с пустым файлом запросов не завершались автоматически
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Alexa в связи с изменением в выдачи
  • Исправлен парсер
    Rank::MajesticSEO в связи с изменением в выдачи
  • Исправлена работа с кодировкой windows-1251
  • Исправлен подсчет числа простых результатов
  • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
  • Исправлен парсер
    Rank::Category в связи с изменением в выдачи
Полный список всех изменений в соответствующем разделе

Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

Улучшения
  • Полностью переработан парсер
    Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
  • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
  • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
  • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
  • Улучшен парсер
    Net::DNS при работе через прокси
  • В API появилась возможность запрашивать статус сразу нескольких заданий
  • В API появилась возможность скачивать файл результата
  • Парсер
    SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
  • В парсере
    Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
Исправления
  • Исправлен парсер
    SE::YouTube в связи с изменением в выдачи
  • Исправлен парсинг с блогов в парсере
    SE::Google в связи с изменением в выдачи
  • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

Улучшения
  • Новый парсер
    SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
  • Новый парсер
    SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
  • Новый парсер
    SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
  • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера
    Rank::CMS
  • Для парсера
    Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
  • Для парсера
    Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
  • Новая опция Emulate browser headers для парсера
    Net::HTTP - автоматически эмулирует хедеры современных браузеров
  • Для парсера
    SE::Yandex::position теперь доступна статистика по использованию каптчи
Исправления
  • Исправлен парсинг рекламных блоков в парсере
    SE::Google в связи с изменением в выдачи
  • Исправлен парсер
    SE::Baidu в связи с изменением в выдачи
  • Исправлен парсер проверки языка сайта
    SE::Bing::LangDetect
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

Улучшения
  • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
  • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
  • Парсер
    SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
  • При парсинге рекламы в
    SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
Исправления
  • Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
  • Исправлено определение ТИц в парсере
    SE::Yandex::TIC
  • Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса
    SE::Yandex::Register в связи с изменением в выдачи
  • Исправлена работа с заблокированными аккаунтами в парсере
    SE::Yandex::WordStat
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Определяем CMS для 1000000 доменов за 15 часов

В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа



Немного статистики:
  • Скорость парсинга составила 1100 доменов в минуту
  • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
  • Определено 126 различных CMS
  • Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint
Читать целиком »

Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

Немного статистики:
  • Парсинг 115390 ключевых слов занял всего 40 минут
  • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
  • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
  • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Читать целиком »

Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake :-)
Пример разделен на 2 части:
  • Сбор ссылок на анкеты из результатов поиска
  • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
В результате получаем файл с примерно следующим содержимым:
Код:
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none
Читать целиком »
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

Другие улучшения
  • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
  • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
  • Для парсера
    SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
  • В парсере
    Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
Исправления
  • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
  • Парсер
    Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
  • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
  • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

Улучшения парсера
HTML::LinkExtractor

  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=
Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в
    SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
  • Исправлен парсер
    SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере
    Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере
    SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер
    Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
 

tatarin

Client
Регистрация
28.10.2012
Сообщения
562
Благодарностей
81
Баллы
28
Чем он круче Content Downloader?
 

A-Parser Support

Пользователь
Регистрация
03.06.2013
Сообщения
176
Благодарностей
22
Баллы
18
Сборник рецептов #2: собираем форумы для (другой софт), парсим email со страниц контактов

Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для (другой софт): 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора



За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса



  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net

Сбор перелинкованных топиков

Метод описывает как используя возможности парсера
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для (другой софт)

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)