Сохранение HTML страниц по списку ссылок

Тема в разделе "Функции и интерфейс программы", создана пользователем Djahat, 7 апр 2014.

  1. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Добрый вечер.

    Хотел уточнить насколько возможна такая тема (хоть теоретически):


    Иногда так бывает (как с вордстатом например), что парсить страницу невозможно. (по разным причинам - защиты, скрипты, прочее)

    При этом страница в браузере отображается нормально - а окне парсинга CD нужных данных нет (или крякозябры).

    При этом если скачиваешь web страницы полностью на локальную машину(стандартной функцией браузера) - а потом их парсишь при помощи CD, проблем никаких не возникает - все парситься на ура.

    Можно как то при помощи CD сделать стандартный процесс скачавания вэбстраниц по списку URL на локальную машину, в том виде как это делает браузер стандартной функцией?

    А потом полученные файлы можно было бы распарсить как нужно.

    Может какая другая программа по списку URL умеет сохранять страницы , в том виде как это делает браузер стандартной функцией?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Давно есть WBApp
    ctrl+h -> Internet Explorer (DOM)
    Ссылки недоступны для гостей
    =)
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не пугайтесь, парсить через него можно с любым типом лицензии Content Downloader, а вот имитация кликов по кнопкам и различных действий в ULTIMATE-версиях.
     
  4. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Спасибо за быстрый ответ.

    Это мне поможет спарсить вор-дстат?

    Обязательна версия эксплорера 11 ? у меня XP и максимум это у меня IE 8 :^(
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не знаю, Вордстат пока не проверял, пока не могу...
    Могут быть проблемы, если честно, с 8 версией IE, нужна 11 версия. Если что, можно Content Downloader переносить на другой ПК 1 раз в двое суток.
     
  6. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Да на 8мерке ероры кидает.

    надо на другой комп переставить и прокачать до УЛТИМЭЙТ

    Для прокачки до ултимэйт купить нужно.
    У меня 2 ключа и 2 компа - оба до ултимэйт скока будет стоить прокачать, не подскажете ? И что Вам прислать в кошелек, чтобы Вы поняли что это я?
     
  7. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Можно протестировать ультру сначала в течение нескольких дней - ?
     
  8. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    хотя чего ее тестировать - как ее оплатить так чтобы Вы поняли к какой лицензии она должна прилипнуть?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Протестировать ее можно с любым типом лицензии (в режиме настройки WBApp список событий работает, имеет ограничений только при парсинге из Content Downloader!!!)
    Лучше протестируйте. Поймете - нужно вам это или нет, если нужно, то уже и оплатите, как написано тут Ссылки недоступны для гостей

    Парсинг Вордстата - сложная штука, там не дураки работают =))), так что не факт, что имеющийся на момент написания этого сообщения функционал программы позволит его парсить...

    Если будут вопросы - пожалуйста, обращайтесь.

    Спасибо!
     
  10. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Спасибо, для меня именно вордстат сейчас важен - сможете посодействовать?

    Или такую тему как то можно исполнить - если скачиваешь web страницы полностью на локальную машину(стандартной функцией браузера) - а потом их парсишь при помощи CD, проблем никаких не возникает - ...........

    Я бы телепортом бы скачал, да там нет авторизации :(, и аналогов что то найти не могу


    Словоеб -как то их парсит до сих пор...но он мне не подходит с кей коллектором.
     
    Последнее редактирование: 7 апр 2014
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Простите, но я понятия не имею, насколько там сложно, так как не разбирался еще с WordStat, потому, что пока не могу (по причине отсутствия на это времени). Когда смогу за это взяться и смогу ли за это взяться вообще - я не знаю...
     
  12. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Спасибо, разобрался.

    По поводу WeBapp - крутая штука - вы е планируете развивать?

    Если да, то круто было бы добавить чтобы:
    - чтобы куки свои можно было бы подставлять разные при визите по линку. типа пришел на страницу по линку а у меня куки такието. потом пришел на другую страницу по линку, а у меня куки такието.

    И конечно надо мне прокачиваться до ултимэйта мне......
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не все так просто там. Компонент браузера для Delphi древний, многое в нем не работает...
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот, смотрите
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Видите regions=11235 - это и есть регион, никакие куки не нужны (выбираем в Firefox регион и его код появляется в адресной строке).
    Если нужно авторизоваться, то делайте это в WBApp (в режиме настройки) прямо руками (вводите логин и пароль).
    Что с капчей делать на WordStat - я пока не знаю (с капчами сейчас для меня пока жесть как все сложно, много заморочек там), может с большой паузой парсить, чтобы не вылетала...
     
  15. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Спасибо.

    А можно как то прямо в программе - кодировать/раскодировать русский URL ?
    %D1%81%D0%BE%D1%82%D0%BE%D0%B 2%D1%8B%D0%B5
    Чтобы КЕЙ вставить на русском, а он его подставил в ссылку в виде - %D1%81%D0%BE%D1%82%D0%BE%D0%B 2%D1%8B%D0%B5&. А по PARAM вернул обратно на русском в CSV ?
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Правый клик по списку ссылок -> преобразовать из URL-кодировки
     
  17. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Круто
     
  18. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Эта функция гасит все что написано за тегом PARAM тоже - она как то может не конвертировать PARAM ? он то в ссылке не участвует

    , я потом по нему всегда сцепляю в Экселе.
     
  19. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте, скажите а зачем Вам преобразование? программа понимает закодированные ссылки.
     

Поделиться этой страницей