A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере
SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы
SE:: DuckDuckGo

Обновлен список доменов гугла в парсере
SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:
  • Иногда ссылка на первый ролик в
    SE::YouTube парсилась некорректно
  • Исправлено падение в некоторых случаях после постановки задания на паузу
  • Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий
  • При дублировании задания частично пропадали настройки Results Builder
Подробнее тут: 1.0.119
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:
  • Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
  • Улучшен парсинг
    SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
  • Теперь парсер
    SE::Bing парсит до 1000 результатов с каждого запроса
  • В парсере
    [NOPARSE]SE::Google::PR[/NOPARSE] если у домена или страницы нету PageRank то в результате выведет -1
  • Парсер [NOPARSE]SE::DMOZ [/NOPARSE]переименован в
    [NOPARSE]Rank::DMOZ[/NOPARSE]
Исправления:
  • Исправлена работа уникализации результатов в тесте A-Parser'а
  • Исправлено автоматическое удаление временных файлов при работе уникализации
  • Rank::Alexa в связи с изменением в выдаче
  • SE::Google::Compromised в связи с изменением в выдаче
  • SE::QIP в связи с изменением в выдаче
  • [NOPARSE]SE::DuckDuckGo[/NOPARSE] в связи с изменением в выдаче
  • SE::Yandex::WordStat в связи с изменением в выдаче
  • [NOPARSE]Rank::DMOZ [/NOPARSE]ошибка при проверке домена с www.
  • Rank::Ahrefs в связи с изменением в выдаче
Подробнее тут: 1.0.130
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.148

Новый парсер
SE::Yandex:: Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:


На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере
HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:
  • Rank::Alexa
  • SE::Google - определение запросов по которым нет результатов
Другие исправления:
  • Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
  • При парсинге
    SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера
  • При парсинге
    SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой
  • В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)
  • Парсер
    SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)
  • Исправлено некорректное сохранение данных в UTF-8 во многих парсерах
  • Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер
SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.


На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры
SE::Yandex::WordStat и
SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!



Другие улучшения:
  • Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)
  • Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)
  • В парсер
    SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)
Исправления:
  • Исправлен парсер подсказок
    SE::Google::Suggest в связи с изменением в выдаче
  • Исправлен парсер
    SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу
  • При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы
Подробнее тут: Версия 1.0.154
 

Vital

Client
Регистрация
28.01.2013
Сообщения
205
Благодарностей
6
Баллы
18
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.180

Парсер Яндекса
SE::Yandex:
  • Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
  • Теперь яндекс гораздо реже показывает каптчу
  • Исправлена отправка каптчи в связи с изменением в выдачи
  • В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата
SE::Yandex::WordStat:
  • Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
  • Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
  • Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
  • Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
  • Небольшие улучшения в скорости работы прокси
Исправления:
  • Исправлен парсер
    SE::AOL в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    SE::Google::TrustCheck в связи с изменением в выдачи
  • Исправлено разделение логов по запросам
Подробнее тут: Изменения в версии 1.0.180
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?
За счет перебора фраз соберет гораздо больше
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе

Теперь в настройках Антигейта(
Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.

Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:


В дополнении к этому в парсере
SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):


Исправления:
  • Исправлен парсинг сниппетов в парсере
    SE::Google
Подробнее тут: Изменения в версии 1.0.183
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления

Улучшения:
  • Улучшения в работе с сессиями в парсере
    SE::Google - уменьшено использование каптч
  • Улучшения в работе с сессиями в парсере
    SE::Yandex::WordStat::ByDate - уменьшено использование каптч
  • Парсер
    Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)
Исправления:
  • В парсере
    SE::Google не распознавалась каптча
  • В парсере
    SE::Yandex не сохранялись сессии
  • HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
  • Макрос результата {firstquery} (первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
  • Исправлено определение количества результатов в выдаче в парсере
    SE::Google
  • Парсер
    SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
  • Парсер
    SE::Google::Compromised в некоторых случаях работал некорректно
  • Исправлен парсер
    SE::AOL
  • Исправлен парсер
    Rank::OpenSiteExplorer
Подробнее тут: Версия 1.0.198
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News

Улучшения
  • Полностью переписан парсер картинок
    SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
  • Парсер
    SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
  • Парсер
    HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
Исправления
  • Исправлен парсер
    SE::Bing::LangDetect в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Парсер
    SE::Google некорректно работал с каптчей при использовании регионального домена Google
  • Парсер
    SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга
Подробнее: Изменения в версии 1.0.201
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!

Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!


Интерфейс претерпел множество изменений:
  • Переработано отображение задания в очереди, теперь оно более наглядное и информативное
  • Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
  • Появилась возможность перемещать задание непосредственно в начало или в конец очереди
  • Обновлен перевод всех элементов на русский язык
  • В задании отображается прогресс в виде процента выполненных запросов
  • Иконка теперь корректно отображается во всех браузерах
  • Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
  • Исправлена ошибка в импорте пресетов
Добавлены новые парсеры, общее число парсеров перевалило за 50:
  • Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
  • SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
  • SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
  • SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
  • SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
  • Rank::Alexa::API - быстрый чекер алексы через API
Улучшения:[NOSMILES]
  • В парсер Яндекса
    SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
  • Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
  • В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
  • Добавлена возможность сохранять неудачные запросы
  • В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
  • Файл с запросами теперь можно выбирать из подпапок
  • В парсер частотности ключевых слов
    SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
  • В парсер Вордстата
    SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
Исправления:
  • Rank::MajesticSEO в связи с изменением в выдаче
  • Rank::Ahrefs в связи с изменением в выдаче
  • SE::AOL в связи с изменением в выдаче
  • Net::Whois - некорректно определял незанятые домены в некоторых зонах
  • Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
Подробнее: Изменения в версии 1.0.214
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.218

Улучшения
  • Парсер
    Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
  • Для парсера
    SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
Исправления
  • Парсер картинок
    SE::Google::Images в связи с изменением в выдаче
  • Парсер
    SE::AOL в связи с изменением в выдаче
  • При использовании API после некоторого числа запросов оно переставало отвечать
  • Парсер
    SE::Baidu в связи с изменением в выдаче
  • Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
  • Опция Try in Parser Test работала некорректно
  • Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии

Подробнее: Изменения в версии 1.0.218
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.223

Новые парсеры:
  • SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
  • Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
Исправления:
  • Парсер
    SE::AOL в связи с изменением в выдачи
  • Парсинг связанных кейвордов(related) в парсере
    SE::Bing в связи с изменением в выдачи
  • В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)

Подробнее: Изменения в версии 1.0.223
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое

Поздравляем всех защитников отечества с их профессиональным праздником!
В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
  • Поддержка переменных, условий, циклов, макросов
  • Множество встроенных функций для строк, массивов и хешей
  • Неограниченные возможности по расширению
  • Подробная документация на русском и английском языках
На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
  • Развернутый пост о преимуществах с примерами на следующей неделе
  • Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
  • Выпуск версии с поддержкой нового шаблонизатора по умолчанию
  • Помощь со стороны технической поддержки в адаптации старых проектов
Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
  • Шаблонах форматирования результатов(Result format)
  • Шаблоне имени файла(Result file name)
  • Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
  • Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
Другие улучшения:
  • Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
  • Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
  • Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
Исправления:
  • Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
  • Исправлен парсер
    SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
  • Парсер
    Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
Подробнее тут: Версия 1.0.232
 
  • Спасибо
Реакции: 7make

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Новый шаблонизатор в A-Parser

Зачем?
  • Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
  • Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
  • Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
  • Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
Массив? Переменная? Мне нужно программировать?
  • Однозначно нет :-) A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
  • Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
  • Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
Читать далее
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок

Улучшения:
  • Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
  • Многократно увеличена скорость при обработке регулярных выражений в Parse custom result
Исправления:
  • Исправлена ошибка в
    SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
  • Исправлен парсер
    SE::YouTube в связи с изменением в выдаче
  • Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
  • Исправлен регистратор аккаунтов в Яндексе
    SE::Yandex::Register в связи с изменением в выдаче
  • Исправлен парсер
    SE::Yahoo в связи с изменением в выдаче
Подробнее тут: Версия 1.0.236
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений

Основные улучшения:
  • Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
  • Полный переход на новый шаблонизатор, старый синтаксис более недоступен
  • Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
  • Создан инструмент для тестирования шаблонов, в нем можно проверить форматирование до парсинга
  • В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
  • Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
  • Теперь шаблон можно задавать в удобном многострочном редакторе
  • Увеличена скорость работы конструктора запросов и результатов
  • В парсере
    SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
Исправления в связи с изменениями в выдачи:
  • Исправлена опция эмуляции браузера для парсера
    SE::Yandex
  • Исправлен парсинг выдачи
    SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
  • Исправлен парсер тИЦ
    SE::Yandex::TIC
  • Исправлен парсер
    Rank::Ahrefs - выдавал неверные данные
  • Исправлен парсинг общего числа результатов в
    SE::Baidu
  • Исправлен парсер
    Rank:: DMOZ
  • Исправлен парсер картинок
    SE::Google::Images
  • Исправлен парсинг описаний к видео в
    SE::YouTube
Информация
  • Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
  • Все вопросы по новому синтаксису шаблонов можно задавать в этом топике
  • Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее тут
Список всех изменений в версии 1.0.268
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Новая документация и текущий статус Бета-версии

В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию

Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
Обсудить новую документацию можно на форуме

Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Новая версия Lite, автоматическая оплата прокси

  • Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
  • Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
  • Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
  • Новая сетка цен
  • Последние изменения в бета версии
  • Переработано описание парсера
Мы ждем ваших вопросов :-) наши контакты
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии



Улучшения
  • Новый парсер
    HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
  • Для парсера
    SE::Google добавлена возможность указывать локацию поиска - город или регион
  • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
  • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
  • Улучшена работа с битыми кодировками и детектирование кодировки страницы
  • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
  • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
  • Для парсера
    Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
  • Добавлена возможность выводить результаты в формате JSON
  • Новая опция Not found is error для парсера
    Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
  • Добавлена возможность удалять неиспользуемые базы данных Keep unique
  • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
  • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
  • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
Исправления
  • Исправлен парсер
    SE::Yandex в связи с переходом на новую выдачу
  • Исправлен парсер
    SE::AOL в связи с изменением в выдачи
  • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
  • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
  • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в
    SE::Yandex::WordStat
  • Net:: DNS - исправлена работа на ОС Windows
  • SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
  • Исправлено некорректное определение некоторых полей в парсере
    Net::Whois
  • Исправлена работа переменной $pagenum в парсере
    Net::HTTP
  • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
  • Задания с пустым файлом запросов не завершались автоматически
  • Исправлен парсер
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    Rank::Alexa в связи с изменением в выдачи
  • Исправлен парсер
    Rank::MajesticSEO в связи с изменением в выдачи
  • Исправлена работа с кодировкой windows-1251
  • Исправлен подсчет числа простых результатов
  • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
  • Исправлен парсер
    Rank::Category в связи с изменением в выдачи
Полный список всех изменений в соответствующем разделе

Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

Улучшения
  • Полностью переработан парсер
    Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
  • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
  • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
  • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
  • Улучшен парсер
    Net::DNS при работе через прокси
  • В API появилась возможность запрашивать статус сразу нескольких заданий
  • В API появилась возможность скачивать файл результата
  • Парсер
    SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
  • В парсере
    Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
Исправления
  • Исправлен парсер
    SE::YouTube в связи с изменением в выдачи
  • Исправлен парсинг с блогов в парсере
    SE::Google в связи с изменением в выдачи
  • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

Улучшения
  • Новый парсер
    SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
  • Новый парсер
    SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
  • Новый парсер
    SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
  • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера
    Rank::CMS
  • Для парсера
    Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
  • Для парсера
    Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
  • Новая опция Emulate browser headers для парсера
    Net::HTTP - автоматически эмулирует хедеры современных браузеров
  • Для парсера
    SE::Yandex::position теперь доступна статистика по использованию каптчи
Исправления
  • Исправлен парсинг рекламных блоков в парсере
    SE::Google в связи с изменением в выдачи
  • Исправлен парсер
    SE::Baidu в связи с изменением в выдачи
  • Исправлен парсер проверки языка сайта
    SE::Bing::LangDetect
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

Улучшения
  • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
  • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
  • Парсер
    SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
  • При парсинге рекламы в
    SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
Исправления
  • Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
  • Исправлено определение ТИц в парсере
    SE::Yandex::TIC
  • Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса
    SE::Yandex::Register в связи с изменением в выдачи
  • Исправлена работа с заблокированными аккаунтами в парсере
    SE::Yandex::WordStat
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Определяем CMS для 1000000 доменов за 15 часов

В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа



Немного статистики:
  • Скорость парсинга составила 1100 доменов в минуту
  • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
  • Определено 126 различных CMS
  • Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint
Читать целиком »

Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

Немного статистики:
  • Парсинг 115390 ключевых слов занял всего 40 минут
  • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
  • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
  • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Читать целиком »

Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake :-)
Пример разделен на 2 части:
  • Сбор ссылок на анкеты из результатов поиска
  • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
В результате получаем файл с примерно следующим содержимым:
Код:
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none
Читать целиком »
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

Другие улучшения
  • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
  • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
  • Для парсера
    SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
  • В парсере
    Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
Исправления
  • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
  • Парсер
    Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
  • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
  • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

Улучшения парсера
HTML::LinkExtractor

  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=
Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в
    SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
  • Исправлен парсер
    SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере
    Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере
    SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер
    Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
 

tatarin

Client
Регистрация
28.10.2012
Сообщения
795
Благодарностей
131
Баллы
43
Чем он круче Content Downloader?
 

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 631
Благодарностей
461
Баллы
83

tatarin

Client
Регистрация
28.10.2012
Сообщения
795
Благодарностей
131
Баллы
43

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
290
Благодарностей
30
Баллы
28
Сборник рецептов #2: собираем форумы для (другой софт), парсим email со страниц контактов

Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для (другой софт): 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора



За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса



  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net

Сбор перелинкованных топиков

Метод описывает как используя возможности парсера
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для (другой софт)

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)