Парсинг сайта на .aspx

Тема в разделе "Решение различных задач по парсингу", создана пользователем bolahg, 30 сен 2019.

  1. bolahg

    bolahg New Member Пользователи

    Регистрация:
    14 янв 2018
    Сообщения:
    11
    Добрый день.
    Есть сайт: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    На нем много различных насосов, хочу спарсить всю информацию по каждому насосу.
    Но есть проблема - все страницы сайта выглядят одинаково: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Понимаю что надо как то через post/get как все страницы изделий сгенерировать. Самый, показалось, простой путь это через сайтовый-поиск.
    Но смотрю я на эти пост/гет и ничего не пойму.
    Подскажите пожалуйста как сгенерировать ссылку для нужной страницы (см. скриншот страницы)
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.433
  3. bolahg

    bolahg New Member Пользователи

    Регистрация:
    14 янв 2018
    Сообщения:
    11
    Страницу у этого сайта даже загрузить не могу в границах парсинга. Подскажите пожалуйста чем воспользоваться.
     

    Вложения:

  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.639
    Город:
    Riga
    [​IMG]
     
    bolahg и Root нравится это.
  5. bolahg

    bolahg New Member Пользователи

    Регистрация:
    14 янв 2018
    Сообщения:
    11
    Продолжаю биться с этим ресурсом.
    Нужно открыть страницу для парсинга с описанием товара, пытаюсь это сделать через сайтовый поиск по артикулу. Для реализации этой цели решил воспользоваться макросом гетморконтент описанным тут: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Открыл страницу, в файерфоксе, нашел как мне кажется ту ссылку которая нужна (xhr см. вложение), скопировал пост запрос, заголовки все как в инструкции. При тесте на вкладке GETMORECONTENT ничего не подгружается, что я делаю не так, подскажите пожалуйста.

    Код:
    <GETMORECONTENT><URL="https://dna.dabpumps.com/ProductSearchServerHandler.vhd[POST]RequestedHandler=ProductSearchServerHandler
    __csrfToken=ak/nvs7Cw49NzEr8bEiDFLz8J711iMaKYFOtKIEdrwjvnh0YeCxzBTB7OIxRxolRBLKONuP NNAKy3SaQgzuQDXl Y6s2AIBH6hOteztns6duTU8IYRQWbXv3s4YhxzLpJqMQGxsmr/xOSSsbOnGBh9tt7dnWSuO1NQKCNuaA18=
    action=ProductSearch.SelectSearchResult
    objRef=[P]
    itemNumber=60169887
    description=1 NKP-G 40-250/260   KVCX 65/80 IE3[/POST]"><HEADERS>Host: dna.dabpumps.com
    User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0
    Accept: */*
    Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3
    Content-type: application/x-www-form-urlencoded
    Content-Length: 295
    Connection: keep-alive
    Referer: https://dna.dabpumps.com/ProductSearch.aspx
    Cookie: projects.autoSave.checkRequired=; EULawCookieBannerStatus=dismiss; NSC_JO5dkfyhbfr55w4brc0icmdv0xufvcm=ffffffffc3a01f4f45525d5f4f58455e445a4a423660; ASP.NET_SessionId=w4tnwp5linypjsoggrgf5jjw; S4SessionTimeoutUTC=2019-10-03T05
    :15:22.5720000Z; S4Session=ak/nvs7Cw49NzEr8bEiDFF5xO9lk4a2wA8/F4FB7I/ZMBnftE+d2w39GL6jcVlzIm9rzfn/qT+w+oCGaP2dlfIb7FumpErFhWjECNfRjm1E=; spaix.browserSession=25141425; cookies.js=1; clientTimeZoneOffset=-300; SpaixLoginDefaultUser=Eufs9gAaE5ErYSltKEkrds+mWwRqyU76XZQOV5iPcNmCfs/5lgfg4hLods7RziakR5FwL5tMCXhRp5QymS9T1cbaL7LZryByBFR+odfIu2PBuLS8xffQa9PKa2gsgwTlWsmux+3l//aX1Pe3gTCgy4WeBmvvrmziJ6EnJjXdKNIROBVLOnGqcMPDSidP20oE</HEADERS><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>

    2. Так же пробовал пойти другим путем, через WBapp. Имитировав клики, запустил поиск, в результате получил нужную страницу. Но при задании границ парсинга, результат Wbapp не отображается
    Вот код Wbapp
    Код:
    [WAITFORSCRIPTS]:90|5
    [CLICK][outerhtml][N]1[/N][FULL]:<span class="btn-button-text">Russia</span>
    [WAIT]:500
    [WAITFORSCRIPTS]:94|18
    [WAIT]:500
    [CLICK][id][N]0[/N][FULL]:btnTile_trigger_7e8cc2c0a0ed41b1893443d04bdae82b
    [WAIT]:500
    [WAITFORSCRIPTS]:100|10
    [WAIT]:500
    [PASTE][outerhtml][N]0[/N][FULL]:<input name="txtSearchFor" class="txtSearchFor" id="txtSearchFor" oninput="ProductSearch_SearchValueChanged(this);return false;" type="text">[TEXT]:60169928
    [WAIT]:500
    [CLICK][outerhtml][N]0[/N][FULL][ET_SETCURSORPOS]:<input name="txtSearchFor" class="txtSearchFor" id="txtSearchFor" oninput="ProductSearch_SearchValueChanged(this);return false;" type="text">
    [WAIT]:500
    [LEFTCLICK]
    [CLICK][outerhtml][N]0[/N][FULL]:<input name="txtSearchFor" class="txtSearchFor" id="txtSearchFor" oninput="ProductSearch_SearchValueChanged(this);return false;" type="text">
    [WAIT]:500
    [KEYPRESS]:VK_SPACE
    [KEYPRESS]:VK_BACK
    [WAIT]:500
    [CLICK][href][N]0[/N][FULL]:https://dna.dabpumps.com/DBImageHandler.vhd?imgFileName=cImgSearch&group=ButtonPicture
    [WAITFORSCRIPTS]:100|12
    [CLICK][innerhtml][N]0[/N][FULL]:60169928
    [WAITFORSCRIPTS]:100|10
     

    Вложения:

    Последнее редактирование: 3 окт 2019
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.433
    Эмуляция запросов вопрос не решает, так как там токены генерировать нужно.

    Данные в фрейме. Парсить с помощью WBApp можно

    2019-10-03_16-49-34.png
     
    bolahg нравится это.
  7. bolahg

    bolahg New Member Пользователи

    Регистрация:
    14 янв 2018
    Сообщения:
    11
    Спасибо Вам ребят огромное. Подскажите пожалуйста еще, как в WBapp куки сохранить. А то каждый раз в Wbapp при переходе по ссылке Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! приходится скриптом тыкать язык, поиск и только потом попадаю на нужную страницу Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.433
    Пожалуйста.

    С куками для браузера пока проблемы.
     

Поделиться этой страницей