Сохранение ссылок спарсенного контента в файл

Тема в разделе "Функции и интерфейс программы", создана пользователем esidrex, 19 мар 2012.

  1. esidrex

    esidrex New Member Пользователи

    Регистрация:
    19 фев 2012
    Сообщения:
    20
    Еще один глупый вопрос с Вашего позволения.) Все парситься как надо, доволен как слон.))) Но еще она потребность появилось. А если вытащить только урлы сайтов на которых нашлась статья без самого текста? И сохранять это все в тхт файл. Такое можно сделать?
    Заранее спасибо!
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Почему глупый? Вполне даже нормальный, только не совсем понятный.

    1. Есть какое-то количество урл, так?
    2. Их надо обработать, так, чтобы найти статьи, с определённым содержанием
    3. Надо сохранить именно те урл, которые соответствовали запросам?

    Я правильно понял?
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    как собрать адреса на страницы сайта из выдачи google то в ключевики впишите примерно так с казанием целевого сайта
    п.с. потом дубли ссылок удалить надо
     
    Последнее редактирование: 20 мар 2012
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вопрос совершенно о другом, google в данный момент ни при чём
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Говорил с автором программы, объяснил что нужно. Будет сделана дополнительная функция в программе, сейчас пока что нет возможности. В течение нескольких дней будет такая опция.

    В общем задачу я понял так.
    - есть список, к примеру 1000 ссылок
    - создали фильтр, скачалось, к примеру, 224 ссылки
    - нужно в отдельный файл получить ссылки на данные 224 статьи


    Если правильно понял, подтвердите, если нет,- поясните.
    Если у кого-то есть другие пожелания к этой задаче, связанной со ссылками - подсказывайте.

    Кроме этого, будет сделана опция сохранения спарсенных ссылок на картинке при Гугле парсинге картинок.

    Сколько времени уйдёт? Парочка дней
     
  6. esidrex

    esidrex New Member Пользователи

    Регистрация:
    19 фев 2012
    Сообщения:
    20
    Не мог ответить раннее, работа. Да, именно так, это мне и нужно. Задачи самые разные, но связанные именно с извлечение ссылок. Например, необходимо найти сайты на конкретном движке конкретной тематики + проверить возможно ли регистрация на этих сайтах (пройти по списку напарсенных урлов с новым запросом) или в на найденых сайтах напарсить ссылки на статьи/новости по определенным ключам. Просто если сразу городить большой и сложный запрос то не находится все (если находится вообще), что нужно, или попросту мусор, да и часто нужно напарсить ссылок и в дальнейшем с ним работать.
    Задачу Вы поняли верно.
     
    Последнее редактирование: 20 мар 2012
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хорошо. Через пару дней будет такая функция в программе
     
  8. esidrex

    esidrex New Member Пользователи

    Регистрация:
    19 фев 2012
    Сообщения:
    20
    Я может что пропустил, какие подвижки есть? )
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сейчас решаются другие, более срочные задачи. Данная решится в порядке очереди. Её решение, как было сказано выше, потребует один-два дня, но, с момента, с которого начнётся работа
     
  10. esidrex

    esidrex New Member Пользователи

    Регистрация:
    19 фев 2012
    Сообщения:
    20
    А хорошо, просто был апдейт, а я может что-то упустил. Я не в коем случае не нагоняю :)
     
  11. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Решится и эта задача, просто существуют накопившиеся неотложные моменты, требующие решения в первую очреедь.
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё уже сделано, обновите программу.

    Как его использовать нововведение написано в файле changelog.txt, в папке программы.

    Привожу текст здесь:
    Сам файл с ссылками формируется в папке, в которую парсится контент.

    [​IMG]

    Для чего это нужно?

    1. Для отчётности. Самое простое применение
    2. Для того, чтобы при следующем парсинге можно было подключиться данный файл в окошке "Файл с загруженными элементами". Тогда, ранее спарсенное не будет лишний раз подгружаться.
    3. Могут быть и другие способы применения.

    Если есть предложения, замечания, пишите.
     
    Последнее редактирование: 7 апр 2012

Поделиться этой страницей