1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Подскажите новичку

Тема в разделе "Техническая поддержка", создана пользователем Kreola, 8 окт 2014.

  1. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Добрый день!
    Ребята, подскажите пожалуйста как элементарно спарсить ссылки?
    Пересмотрел надцать постов, все для старых версий описания, по новым совсем немогу разобрать что и как делать.
    Возможно есть видеоуроки?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
  3. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Читаю, куда ж без этого) Но все равно без более менее хорошего пинка, что-то туго идет.
    Настраиваю парсер
    [​IMG]
    На выходе получаю список ссылок в варианте

    http://3tlin.com/show-soq-25568413.html مطلوب أفراد-مؤسسات لنقل محتوى موقع
    <img src='http://3tlin.com/style/hexll/img/hexll_21.jpg' border='0px' width="189" height="188" />
    http://3tlin.com/show-sector-57032714.html المؤسسة العامة للموانئ تعلن عن وظيفة خبير عمليات موانئ
    В итоге, я пытаюсь сделать просто вот такую ссылку http://3tlin.com/show-soq-25568413.html, без jpg и остальной лабудени.
    По моей пока недалекой логике, я могу это сделать в варианте получения запроса и в варианте послефильтрации, результат должен быть один и тот же, хотя может я и не прав.
    Подскажите где я не то делаю.
    И вопрос 2, а как же мне собрать все ссылки с сайта? Уверен что просто недочитал, ткните носом.
    P.s. извините если что-то написал не туда или оформил не так.
    Спасибо заранее.
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    по умолчанию результат выводит в формате линк - анкор, поэтому в результатах присутсвует и текст помимо ссылок
    задание должно выглядеть примерно так:
    [​IMG]

    • меняем формат результата чтобы записывать только ссылки
    • добавляем фильтр чтобы записывать только ссылки с вхождением show
    • добавляем опцию Parse to level чтобы парсер ходил в глубь сайта до указанного уровня
    • включаем уникальность запросов, чтобы парсер ходил только по уникальным ссылкам
     
    Kreola нравится это.
  5. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Настроил все как Вы показали, нажимаю добавить задание и перехожу в Очередь заданий.
    И наблюдаю картинку
    [​IMG]
    Прошло 10 минут ничего не поменялось. Это так и должно быть?
    Или я опять что-то не так сделал?
    Вопрос 2.
    Если все же нужно чтоб ссылки чистились, где это правильнее делать? В фильтрации? т.е. нужно из ссылки site.ru/aaa/bbb/ccc оставить
    site.ru/aaa/
    Возможно проблема в прокси?
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    "Ожидающих потоков" 1 значит что поток ждет прокси, т.е. нету живых проксей

    2. обрезать ссылки надо с помощью конструктора результатов, заменой или заменой по регулярному выражению(корректная замена с использованием переменных $1 $2... реализована в последней бета версии)
     
  7. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Приветики
    Ну понемногу начинает доходить но все же.
    Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах.
    Вопрос б) настраиваю попытку почистить результаты ссылок через регулярное выражение.
    Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли,
    [​IMG]
    ибо когда я запускаю без этой попытки почистить результаты, то задание нормально обрабатывается.
    а если с ней, то в заданиях вот такая картинка, [​IMG]а при попытке что либо сделать он просто висит, перехожу на сервер, там написано не отвечает (упал короче). [​IMG]Перезапускаю, все вроде работает. Пока не сделаю тоже самое. Это серв на любое такое действие так себя будет вести?
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются
    запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания

    для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера
     
  9. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api

    Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал?
    Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/
    применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?
    [​IMG]
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    не совсем понял вопроса, 50-100 парсингов одного и того же с теми же ключами?
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз?

    на вид вроде все правильно, какой результат? какая версия?
     
  12. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить?

    версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.
     
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    для полной автоматизации можно использовать API

    если вручную - то просто делать Duplicate на задании из очереди

    правильно, только как я говорил надо поставить бету версию, в 1.1.61 данный функционал работает некорректно
     
  14. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Уважаемый админ, разъясните мне, что-то я не могу врубиться.
    Я поставил версию 1.1.79 оставил настройку такую же.
    я пытаюсь применить RegexReplace ^(http:\/\/haraj\.com\.sa\/(\d+)\/)(.*?)$ => $1
    но парсер просто зависает.
    + я хочу фильтровать начальные запросы. по тому же методу. Но опять же ничего не работает.
    И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ.
    Помогите правильно настроить.
    [​IMG]
     
  15. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Исправлено в версии 1.1.86
    навсякий случай код пресета:
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6
    TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6Im9wdGlvbnMiLCJpZCI6
    InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
    ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGludGxpbmtzLmZvcm1hdCgnJGxpbmtc
    XG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1Nh
    dmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0
    KCkudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoi
    bm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6dHJ1
    ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi
    b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
    byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
    bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
    cyI6W3sic291cmNlIjpbMCxbImludGxpbmtzIiwibGluayJdXSwidHlwZSI6InJl
    Z2V4UmVwbGFjZSIsImFycmF5IjoiaW50bGlua3MiLCJyZWdleCI6Il4oaHR0cDov
    L2hhcmFqXFwuY29tXFwuc2EvKFxcZCspLykuKiQiLCJyZWdleFR5cGUiOm51bGws
    InJlcGxhY2UiOiIkMSIsInRvIjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpb
    XX19

    пожелания по улучшениям можно добавлять сюда http://a-parser.com/forum/issues/
     
    Kreola нравится это.
  16. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    подскажите где в моем пресете ошибка?
    Нужны именно такие замены. лог ничего особо не пишет.


    eyJwcmVzZXQiOiJIYXJhal9BbnQiLCJ2YWx1ZSI6eyJwYXJzZXJzIjpbWyJOZXQ6
    OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJv
    eHkiLCJ2YWx1ZSI6ZmFsc2V9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt
    YXRyZXN1bHQiLCJ2YWx1ZSI6IlslIGEuZm9ybWF0KCc8cGhvbmU+MDUkYjxwaG9u
    ZT5cXG4nKSAlXSAkYiJ9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6
    InF1ZXJ5IiwicmVnZXgiOiIoX1xcZCspIiwicmVnZXhUeXBlIjoiIiwicmVzdWx0
    VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoiYSIsInJlc3VsdHMiOlsiYiJdfSx7
    InR5cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsiYSIsImIiXSwidW5pcXVlVHlwZSI6
    InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6
    IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxl
    TmFtZSI6IkhBUkFKX0FOVE9OJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
    aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJ5
    Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZh
    aWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZl
    bHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVP
    cHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5k
    IjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNlIjoicXVlcnkiLCJ0eXBlIjoi
    cmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjAiLCJyZWdleFR5cGUiOiJnIiwi
    cmVwbGFjZSI6IjAiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5
    cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2MSIsInJlZ2V4VHlwZSI6
    ImciLCJyZXBsYWNlIjoiMSIsInRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5
    IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXHUwNjYyIiwicmVnZXhU
    eXBlIjoiZyIsInJlcGxhY2UiOiIyIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoi
    cXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjMiLCJy
    ZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjMiLCJ0byI6InF1ZXJ5In0seyJzb3Vy
    Y2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2
    NCIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNCIsInRvIjoicXVlcnkifSx7
    InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4Ijoi
    XHUwNjY1IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2UiOiI1IiwidG8iOiJxdWVy
    eSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVn
    ZXgiOiJcdTA2NjYiLCJyZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjYiLCJ0byI6
    InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2Ui
    LCJyZWdleCI6Ilx1MDY2NyIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNyIs
    InRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVw
    bGFjZSIsInJlZ2V4IjoiXHUwNjY4IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2Ui
    OiI4IiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVn
    ZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjkiLCJyZWdleFR5cGUiOiJnIiwicmVw
    bGFjZSI6IjkiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUi
    OiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IjwoLio/KT4iLCJyZWdleFR5cGUiOiJn
    IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
    InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IiAiLCJyZWdleFR5cGUiOiJn
    IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
    InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IlxcdCsiLCJyZWdleFR5cGUi
    OiJnIiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiIiLCJ0
    eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcXHMrIiwicmVnZXhUeXBlIjoi
    ZyIsInJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoiIiwidHlw
    ZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXysiLCJyZWdleFR5cGUiOm51bGws
    InJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9XSwicmVzdWx0c0J1aWxkZXJzIjpb
    XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
     
    #16 Kreola, 20 окт 2014
    Последнее редактирование модератором: 20 окт 2014
  17. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Какая именно ошибка?
     
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    P.S. надо сразу описывать задачу и какие проблемы

    на первый взгляд пресет бредовый, все действия выполняются над запросом($query), хотя запрос это просто ссылка на страницу, которую должен скачать Net::HTTP
     
  19. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    [​IMG]
    Да никакой ошибки просто выполнено и все.

    Возможно и бредовй, просто я пока не понял сути где и что надо выполнять, слишком нужно все "Правильно" понимать, где что и как надо делать(.
    Суть, зайти на страницу, почистить ее код, получить группы чисел перед которыми будет знак _ и забрать их.
     
  20. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    ну как я и написал выше что все выполняется над $query, а должно быть над результатом $data, я не исключаю что там еще может быть множество ошибок
    вообще незачем усложнять если не разобрался еще в базовых вещах :)

    я бы изначально парсил цифры на арабском да и все
     

Поделиться этой страницей