Парсинг размеров

Тема в разделе "Парсинг HTML-таблиц", создана пользователем Polinar11, 26 окт 2018.

  1. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Добрый день!
    Подскажите пожалуйста как решить следующую задачу:
    1. Необходимо спарсить ростовки: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! .
    Адрес страницы донора: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    2. В CSV таблицу необходимо записать в формате <{16,18,20}> в колонку с названием "Размер"
    Буду признательна за помощь!)
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    Для выбранной границы парсинга, в поиск/замену
    Код:
    </td>|,
    <{skip}>|
    re:\s{2,}|
    ,{textend}|
    [​IMG]
     
  3. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Спасибо, что так быстро отреагировали на мою просьбу!
    Я всё сделала так как на примере из вашего ответа, однако, что то не клеится:
    1. В окне вставляю всё необходимое для замены Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    2. Нажимаю "Готово" и происходит перезагрузка кода и вот итог: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    3. Соответственно если всё это дело сохранить и потом посмотреть предпосмотр CSV, то выглядит так: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Подскажите пожалуйста может я что то не так сделала?
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    Вы через прокси работаете?
    В настройках http заголовков - поставьте библиотеку win
     
  5. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Работаю через 4G-модем!
    В настройках поставила библиотеку win : Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Итог тот же
     
  6. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    "Поиск и замена для загружаемого кода" у вас специально включена ?
    [​IMG]
     
  7. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Я дела скрин настройки после того как протестировала. Соответственно на момент начала теста с библиотекой WIN галочки там не было!
     
  8. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Вообще я хотела на сервер установить программу для автопарсинга, просто пока делаю проект на стационарном ПК. Если проблема из-за 4G модема, то возможно когда программа будет на сервере не будет такой проблемы?
     
  9. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    Скрины делал с версии установленной на Windows Server 2012
     
  10. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Добрый день!
    Установила программу на сервер W 2012 R12. Та же история, при замене, код адаптируется под кириллицу. Поможете с решением проблемы?
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.741
    Город:
    Сочи
    Вам сказали сделать поиск-замену для выбранной границы парсинга. Вы делаете ее для загружаемого кода.
     
  12. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Я прошу прощения, можно скрин где находится эта функция?
     
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.741
    Город:
    Сочи
    ctrl+4 из главного окна программы
     
  14. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Спасибо, теперь понятно и всё работает, только вот задача моя не до конца решена:
    Мне нужно было полученные значения заключить в такой формат: <{16,18,20}>. Сейчас значения на выходе в формате: 16,18,20
    Формула выгляди так:
    </td>|,
    <{skip}>|
    re:\s{2,}|
    ,{textend}|
    Помогите с формулой пожалуйста...
     
  15. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.741
    Город:
    Сочи
    Код:
    </td>|,
    <{skip}>|
    re:\s{2,}|
    ,{textend}|
    {get}|<{{get}}>
     
  16. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Огромное вам спасибо!!!
     
  17. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    Код:
    </td>|,
    <{skip}>|
    re:\s{2,}|
    ,{textend}|
    re:^|<{
    re:$|}>
    последние две строки добавят к тексту <{ и }>
     
  18. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Спасибо, если не сложно подскажите формулу как убрать пробел у цены, например: 10 590, а нужно 10590
     
  19. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    328
    Несколько вариантов:
    1)перед разделителем | указать пробел
    Код:
     |
    2)С помощью регулярного выражения, удалит одиночный пробел
    Код:
    re:\s|
    3)Удалить все символы кроме цифр
    Код:
    re:\D|
     
  20. Polinar11

    Polinar11 New Member Пользователи

    Регистрация:
    25 окт 2018
    Сообщения:
    27
    Город:
    Москва
    Спасибо, помогло!
    Выделила фото границами, но идут пропуски фото при парсинге код например такой:
    <div class="thumb-img">
    <a class="a-carousel-image-link dop-foto-notvideo highslide" onmouseover="fotodopfelo('Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ', 'Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! " onclick="return hs.expand(this)" href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "><img alt="" src="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "></a>
    <a class="a-carousel-image-link dop-foto-notvideo highslide" onmouseover="fotodopfelo('Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ', 'Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! " onclick="return hs.expand(this)" href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "><img alt="" src="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "></a>
    <a class="a-carousel-image-link dop-foto-notvideo highslide" onmouseover="fotodopfelo('Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ', 'Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! " onclick="return hs.expand(this)" href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "><img alt="" src="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "></a>
    </div>
    Задача заключается в том что нужно Каждое изображение /big/ разместить в отдельной колонке. Что нужно сделать чтобы парсилось так как мне необходимо?
     

Поделиться этой страницей