Проблема с парсингом в Amazon

AloneSlamer · 07.11.2016

вот поэтому я и назначал за парсинг амазона нормальную цену

qzen4i · 08.11.2016

Если не разобрался, в скайп напиши, помогу.

Moadip · 09.11.2016

KashaP сказал(а):
Вот ссылка например:
https://www.amazon.com/s/ref=sx_as?...1478535822&vehicle=2014-54-666------------1-1
Какой должна быть регулярка чтобы спарсить оттуда ссылки?)

Попробуй юзать не регулярки, а xpath.

Код:

.//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]/@href

amyboose · 09.11.2016

Понапридумывали языков SQL, XPath, регулярки, LINQ, а новичкам приходится их учить наравне с основным языком программирования наподобие C#, java и т.д.

Wide · 10.11.2016

Moadip сказал(а):
Попробуй юзать не регулярки, а xpath.

Код:

.//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]/@href

может покажете как на в зеньке использовать? у мну ничего не получается((

silent · 10.11.2016

amyboose сказал(а):
Понапридумывали языков SQL, XPath, регулярки, LINQ, а новичкам приходится их учить наравне с основным языком программирования наподобие C#, java и т.д.

ты так говоришь, как будто это что-то сложное, бгг
инфы по xpath полно на любом языке.

Wide · 10.11.2016

KashaP сказал(а):
Пытаюсь спарсить ссылки на товары с определенной категории, на 1 странице 24 ссылки, но результат либо 20 либо 35. Как быть? Может у кого нибудь была подобная проблема?

Как я пытаюсь это сделать:
1. Захожу в дом страницы нахожу там ссылку первого товара
2. Заполняю это есть перед и это есть после искомого текста
3. Получаю результат, либо 20 либо 35, но никак не 24 (

попробуй мой способ. сперва парсим блок с результатами, потом блок с товаром, а из него уже тянем ссылку

Wide · 10.11.2016

хотя нет, вот через гет. насколько я понял, там ещё какие то результаты добавляются в диве

Код:

<div id="results-atf-next" style="display: none;">

Moadip · 11.11.2016

mrXrumer сказал(а):
может покажете как на в зеньке использовать? у мну ничего не получается((

Вот пример как юзать через запросы.
http://zennolab.com/discussion/threads/pomogite-s-parsingom-teksta.28069/#post-235994

А то что на скрине, конструктор xpath/JSONPath, это для xml.

Wide · 12.11.2016

Moadip сказал(а):
Вот пример как юзать через запросы.
http://zennolab.com/discussion/threads/pomogite-s-parsingom-teksta.28069/#post-235994

А то что на скрине, конструктор xpath/JSONPath, это для xml.

друг, я и так с регулярками не дружу, а тут ещё xpath по линку не понял ни чего)) если не не сложно скинь пример, чего уж ломать наши умы))

Moadip · 13.11.2016

mrXrumer сказал(а):
друг, я и так с регулярками не дружу, а тут ещё xpath по линку не понял ни чего)) если не не сложно скинь пример, чего уж ломать наши умы))

А в чем там собственно проблема то.
ТС надо вытащить инфу со страницы. Так понимаю не с одной страницы. :-)

Т.е. это парсер. Соответственно он должен работать быстро, чтобы прокачивать большой объем инфы.
И тут вариант только один - делать через запросы. Можно конечно и через браузер, но какбы это помоему извращение.

Соответственно по ссылке было показано, как через запросы брать html страницу, а потом через xpath используя HtmlAgilityPack вытащить нужную инфу.

Вот тут и надо воткнуть xpath выражение, в списке будут все ссылки.

Код:

var list= doc.DocumentNode
    .SelectNodes("".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]"") // взяли нужные узлы
    .Select(n => n.GetAttributeValue("href", "")) //взяли значение атрибута href
    .ToList();

Если через браузер, то в зенке уже есть встроенные методы для работы с xpath.

Код:

var hrefs = instance
   .ActiveTab
   .GetDocumentByAddress("0")
   .FindElementsByXPath(".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]")
   .Select(h => h.GetAttribute("href"))
   .ToList();
  
foreach(var href in hrefs)
{
   project.SendInfoToLog(href, true);
}

А вообще в xpath ничего сложного нет. Не надо лезть в дебри xpath и разбираться с конструкциями, которые посути нах не нужны.
Ну по крайней мере для начала. :-)

В 90% случаев достаточно понимать две конструкции.
тэг[@атрибут='значение атрибута')]
тэг[contains(@атрибут, 'значение атрибута')]

Тэг может быть или какой то конкретный, скажем div, a, span и т.д. или любой, обозначается *.
Также * можно обозначить любой атрибут.
То что в скобках, не обязательно, это условие поиска нужной ноды, если например просто указать div, то будут взяты все ноды с таким тегом.

/ — корневой узел
// — множество узлов удовлетворяющих следющему условию
* — любые символы
@ — атрибут
[] — задает условие
Все. Вот эти пять элементов понимать, и как их собирать в конструкцию, и этого хватит в большинстве случаев.

По двум конструкциям.
Первый вариант, это строгое условие.
Второй - "содержит", значение атрибута содержит какой то текст.

Например есть вот такие ноды

Код:

<li class="serp-item" data-16sh="" data-sb8j="" data-cid="1">
<li class="serp-item serp-item_keyboard-shortcuts-ignore_yes" data-cid="4">

Как взять именно такие ноды? Вот тут и нужен contains.

Код:

бла-бла-бла/li[contains(@class, 'serp-item']

Т.к. serp-item есть в значении атрибута class в обеих нодах, то такие ноды и возьмутся.

А дальше все просто, путь до нужных нод указывается как путь к какой то папке на компе, через слэш - / .

Код:

//тэг[@атрибут='значение атрибута')]/тэг[@атрибут='значение атрибута')]/тэг/тэг[contains(@атрибут, 'значение атрибута')]

Вложенность может быть любая. Основная трабла, это в каждом конкретном случает приходится поломать голову, как спуститься до нужной ноды. :-)

В firefox есть удобная штука - плаги FirePath, как дополнение к другому плагину - FireBug.
C помощью него очень удобно конструировать/тестить xpath выражения.

Аналогичная возможность есть и в других браузерах. Но я привык к firefox, и юзаю в нем.
Надеюсь данная памятка поможет осилить xpath. :-)

silent · 13.11.2016

http://www.zvon.org/xxl/XPathTutorial/General_rus/examples.html
в догонку, а то вдруг не осилят текст выше и как искать в гоше, бгг

Wide · 13.11.2016

Moadip сказал(а):
А в чем там собственно проблема то.
ТС надо вытащить инфу со страницы. Так понимаю не с одной страницы.
Т.е. это парсер. Соответственно он должен работать быстро, чтобы прокачивать большой объем инфы.
И тут вариант только один - делать через запросы. Можно конечно и через браузер, но какбы это помоему извращение.

Соответственно по ссылке было показано, как через запросы брать html страницу, а потом через xpath используя HtmlAgilityPack вытащить нужную инфу.

Вот тут и надо воткнуть xpath выражение, в списке будут все ссылки.

Код:

var list= doc.DocumentNode .SelectNodes("".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]"") // взяли нужные узлы .Select(n => n.GetAttributeValue("href", "")) //взяли значение атрибута href .ToList();

Если через браузер, то в зенке уже есть встроенные методы для работы с xpath.

Код:

var hrefs = instance .ActiveTab .GetDocumentByAddress("0") .FindElementsByXPath(".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]") .Select(h => h.GetAttribute("href")) .ToList(); foreach(var href in hrefs) { project.SendInfoToLog(href, true); }

А вообще в xpath ничего сложного нет. Не надо лезть в дебри xpath и разбираться с конструкциями, которые посути нах не нужны.
Ну по крайней мере для начала.

В 90% случаев достаточно понимать две конструкции.
тэг[@атрибут='значение атрибута')]
тэг[contains(@атрибут, 'значение атрибута')]

Тэг может быть или какой то конкретный, скажем div, a, span и т.д. или любой, обозначается *.
Также * можно обозначить любой атрибут.
То что в скобках, не обязательно, это условие поиска нужной ноды, если например просто указать div, то будут взяты все ноды с таким тегом.

/ — корневой узел
// — множество узлов удовлетворяющих следющему условию
* — любые символы
@ — атрибут
[] — задает условие
Все. Вот эти пять элементов понимать, и как их собирать в конструкцию, и этого хватит в большинстве случаев.

По двум конструкциям.
Первый вариант, это строгое условие.
Второй - "содержит", значение атрибута содержит какой то текст.

Например есть вот такие ноды

Код:

<li class="serp-item" data-16sh="" data-sb8j="" data-cid="1"> <li class="serp-item serp-item_keyboard-shortcuts-ignore_yes" data-cid="4">

Как взять именно такие ноды? Вот тут и нужен contains.

Код:

бла-бла-бла/li[contains(@class, 'serp-item']

Т.к. serp-item есть в значении атрибута class в обеих нодах, то такие ноды и возьмутся.

А дальше все просто, путь до нужных нод указывается как путь к какой то папке на компе, через слэш - / .

Код:

//тэг[@атрибут='значение атрибута')]/тэг[@атрибут='значение атрибута')]/тэг/тэг[contains(@атрибут, 'значение атрибута')]

Вложенность может быть любая. Основная трабла, это в каждом конкретном случает приходится поломать голову, как спуститься до нужной ноды.

В firefox есть удобная штука - плаги FirePath, как дополнение к другому плагину - FireBug.
C помощью него очень удобно конструировать/тестить xpath выражения.

Аналогичная возможность есть и в других браузерах. Но я привык к firefox, и юзаю в нем.
Надеюсь данная памятка поможет осилить xpath.

прям мозг мне вынес этим сообщением)) я думал что всё уже видел в этой жизни, но микро диссертация в одном посте это сильно)) аплодирую стоя!!

Wide · 14.11.2016

ну блин криворукий я в край)) оба метода пробовал. не один не завёлся

Moadip · 14.11.2016

mrXrumer сказал(а):
ну блин криворукий я в край)) оба метода пробовал. не один не завёлся

Так логи то для кого пишутся? Там же пишется что за ошибка.
Двойные кавычки. Тут даже сразу подсвечивается что косяк.

Если используется HtmlAgilityPack кто ее будет добавлять и using прописывать?
Зенка сама не добавит.))
https://htmlagilitypack.codeplex.com/

Дальше, ссылка что была у ТС и у тебя разная. Проверяем xpath. Не пашет. Значит разбираемся почему и делаем другой xpath.

А теперь работает

Ок, ссылки взялись, но как ты собрался получить их количество? Список то ты создал, а добавлять в него строчки кто будет.
Зенка?))

Чтобы сделать xpath, который бы норм парсил амазон, это надо проверить множество вариантов, т.к. амазон любит менять разметку.
Поэтому естественно, если в одном месте работает, то вдругом может не работать. Т.е надо посидеть поковыряться, пошевелить мозгом.

Ну и как бы на будущее. Надо учиться работать с логом, читать что там пишется, и учиться решать проблемы.
Т.к без этого тяжеловато будет.))

В архиве либа HtmlAgilityPack, ее надо закинуть в ExternalAssemblies в папке зенки.

silent · 14.11.2016

ответили выше

Wide · 14.11.2016

Moadip сказал(а):
Так логи то для кого пишутся? Там же пишется что за ошибка.
Двойные кавычки. Тут даже сразу подсвечивается что косяк.

Если используется HtmlAgilityPack кто ее будет добавлять и using прописывать?
Зенка сама не добавит.))
https://htmlagilitypack.codeplex.com/

Дальше, ссылка что была у ТС и у тебя разная. Проверяем xpath. Не пашет. Значит разбираемся почему и делаем другой xpath.

А теперь работает

Ок, ссылки взялись, но как ты собрался получить их количество? Список то ты создал, а добавлять в него строчки кто будет.
Зенка?))

Чтобы сделать xpath, который бы норм парсил амазон, это надо проверить множество вариантов, т.к. амазон любит менять разметку.
Поэтому естественно, если в одном месте работает, то вдругом может не работать. Т.е надо посидеть поковыряться, пошевелить мозгом.

Ну и как бы на будущее. Надо учиться работать с логом, читать что там пишется, и учиться решать проблемы.
Т.к без этого тяжеловато будет.))

В архиве либа HtmlAgilityPack, ее надо закинуть в ExternalAssemblies в папке зенки.

ну что ту ещё можно сказать? выше всяких похвал!! попробовал оба способа работают как часики. спасибо друг за подробные разъяснение!! теперь ты мой президент))

Pastors · 19.07.2018

Moadip сказал(а):
Если через браузер, то в зенке уже есть встроенные методы для работы с xpath.

Код:

var hrefs = instance
   .ActiveTab
   .GetDocumentByAddress("0")
   .FindElementsByXPath(".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]")
   .Select(h => h.GetAttribute("href"))
   .ToList();
foreach(var href in hrefs)
{
   project.SendInfoToLog(href, true);
}

Подскажите.. Почему то при таком способе результат выводит только в лог, а в переменную только "ОК"
Как сделать (код подправить?), что бы все сохранялось в список или в переменную.

Pastors · 20.07.2018

Вопрос снят.. Разобрался. Сохранить в список

Код:

[CODE]var hrefs = instance
   .ActiveTab
   .GetDocumentByAddress("0")
   .FindElementsByXPath(".//div[@class='a-row a-spacing-none']/a[contains(@class, 'a-link-normal s-access-detail-page')]")
   .Select(h => h.GetAttribute("href"))
   .ToList();
foreach(var href in hrefs)
{
   project.SendInfoToLog(href, true);
}
project.Lists["тот самый список"].AddRange(hrefs)

Mikhail B. · 20.01.2019

Moadip сказал(а):
В firefox есть удобная штука - плаги FirePath, как дополнение к другому плагину - FireBug.
C помощью него очень удобно конструировать/тестить xpath выражения.

К сожалению плагин не поддерживается Firefox. Есть альтернативы?

Moadip · 22.01.2019

Mikhail B. сказал(а):
К сожалению плагин не поддерживается Firefox. Есть альтернативы?

Адекватного варианта я не нашел, все что перепробовал не понравилось. Поэтому решил эту проблему следующим образом.
Поставил отдельно старый firefox, и запретил ему обновляться.

Mikhail B. · 22.01.2019

Moadip сказал(а):
Поставил отдельно старый firefox, и запретил ему обновляться.

Я так пробовал, но не смог найти исходники плагина. Нашел на гитхабе, но там формат который Firefox не смог понять.

Moadip · 22.01.2019

Mikhail B. сказал(а):
но не смог найти исходники плагина

А зачем исходники? Ставишь отдельно firefox, ставишь плагин firebug, потом firepath.

Mikhail B. · 22.01.2019

Moadip сказал(а):
ставишь плагин firebug, потом firepath

Его нет в магазине.

Moadip · 22.01.2019

Mikhail B. сказал(а):
Его нет в магазине.

Глянул. Ну да, убрали. Значит или искать альтернативные источники, по любому где нибудь есть. Или собирать из исходников.

Mikhail B. · 22.01.2019

Moadip сказал(а):
Глянул. Ну да, убрали. Значит или искать альтернативные источники, по любому где нибудь есть. Или собирать из исходников.

Пытался в вебархиве посмотреть, не получилось. Ниужели плагин просто пропал =(

Yuriy Zymlex · 22.01.2019

Moadip · 22.01.2019

Mikhail B. сказал(а):
Пытался в вебархиве посмотреть, не получилось. Ниужели плагин просто пропал =(

1. Отсюда берем firefox - https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/win64/ru/

2. Делаем отдельный профиль для этого фаерфокса, чтобы не где нибудь был а в нужном месте.
https://support.mozilla.org/ru/kb/upravlenie-profilyami

3. Ставим с кастомным путем куда надо. Снимаем галку запустить в конце установки.

4. Делаем ярлык для фаерфокса, в свойствах прописываем это.

Ну т.е. в конце -no-remote -P "Dev"
Dev это у меня так папка и профиль называется. Соответственно прописываем свой какой надо.

5. Запускаем через ярлык, отключаем обновления.

6. Закрываем, смотрим успела ли появиться папка updated. Если появилась, удаляем, иначе при повторном запуске обновится.

6.Запускаем. Ставим плагины. Просто перетаскивая их на окно фаерфокса.

7. Пользуемся. :-)

Проблема с парсингом в Amazon

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Вложения

Client

Client

Client

Client

Client

Client

Вложения

Client

Вложения

Client

Client

Client

Client

Moderator

Client

Moderator

Client

Moderator

Client

Moderator

Moderator

Client

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)