Добрый день! Ребята, подскажите пожалуйста как элементарно спарсить ссылки? Пересмотрел надцать постов, все для старых версий описания, по новым совсем немогу разобрать что и как делать. Возможно есть видеоуроки?
зачем смотреть какие то посты? есть документация, в ней например http://a-parser.com/wiki/quick-task/
Читаю, куда ж без этого) Но все равно без более менее хорошего пинка, что-то туго идет. Настраиваю парсер На выходе получаю список ссылок в варианте http://3tlin.com/show-soq-25568413.html مطلوب أفراد-مؤسسات لنقل محتوى موقع <img src='http://3tlin.com/style/hexll/img/hexll_21.jpg' border='0px' width="189" height="188" /> http://3tlin.com/show-sector-57032714.html المؤسسة العامة للموانئ تعلن عن وظيفة خبير عمليات موانئ В итоге, я пытаюсь сделать просто вот такую ссылку http://3tlin.com/show-soq-25568413.html, без jpg и остальной лабудени. По моей пока недалекой логике, я могу это сделать в варианте получения запроса и в варианте послефильтрации, результат должен быть один и тот же, хотя может я и не прав. Подскажите где я не то делаю. И вопрос 2, а как же мне собрать все ссылки с сайта? Уверен что просто недочитал, ткните носом. P.s. извините если что-то написал не туда или оформил не так. Спасибо заранее.
по умолчанию результат выводит в формате линк - анкор, поэтому в результатах присутсвует и текст помимо ссылок задание должно выглядеть примерно так: меняем формат результата чтобы записывать только ссылки добавляем фильтр чтобы записывать только ссылки с вхождением show добавляем опцию Parse to level чтобы парсер ходил в глубь сайта до указанного уровня включаем уникальность запросов, чтобы парсер ходил только по уникальным ссылкам
Настроил все как Вы показали, нажимаю добавить задание и перехожу в Очередь заданий. И наблюдаю картинку Прошло 10 минут ничего не поменялось. Это так и должно быть? Или я опять что-то не так сделал? Вопрос 2. Если все же нужно чтоб ссылки чистились, где это правильнее делать? В фильтрации? т.е. нужно из ссылки site.ru/aaa/bbb/ccc оставить site.ru/aaa/ Возможно проблема в прокси?
"Ожидающих потоков" 1 значит что поток ждет прокси, т.е. нету живых проксей 2. обрезать ссылки надо с помощью конструктора результатов, заменой или заменой по регулярному выражению(корректная замена с использованием переменных $1 $2... реализована в последней бета версии)
Приветики Ну понемногу начинает доходить но все же. Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах. Вопрос б) настраиваю попытку почистить результаты ссылок через регулярное выражение. Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли, ибо когда я запускаю без этой попытки почистить результаты, то задание нормально обрабатывается. а если с ней, то в заданиях вот такая картинка, а при попытке что либо сделать он просто висит, перехожу на сервер, там написано не отвечает (упал короче). Перезапускаю, все вроде работает. Пока не сделаю тоже самое. Это серв на любое такое действие так себя будет вести?
если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера
т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал? Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/ применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?
не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз? на вид вроде все правильно, какой результат? какая версия?
перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить? версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.
для полной автоматизации можно использовать API если вручную - то просто делать Duplicate на задании из очереди правильно, только как я говорил надо поставить бету версию, в 1.1.61 данный функционал работает некорректно
Уважаемый админ, разъясните мне, что-то я не могу врубиться. Я поставил версию 1.1.79 оставил настройку такую же. я пытаюсь применить RegexReplace ^(http:\/\/haraj\.com\.sa\/(\d+)\/)(.*?)$ => $1 но парсер просто зависает. + я хочу фильтровать начальные запросы. по тому же методу. Но опять же ничего не работает. И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ. Помогите правильно настроить.
Исправлено в версии 1.1.86 навсякий случай код пресета: Спойлер Код: eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6 TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6Im9wdGlvbnMiLCJpZCI6 InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6 ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGludGxpbmtzLmZvcm1hdCgnJGxpbmtc XG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1Nh dmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0 KCkudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoi bm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6dHJ1 ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1 bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy cyI6W3sic291cmNlIjpbMCxbImludGxpbmtzIiwibGluayJdXSwidHlwZSI6InJl Z2V4UmVwbGFjZSIsImFycmF5IjoiaW50bGlua3MiLCJyZWdleCI6Il4oaHR0cDov L2hhcmFqXFwuY29tXFwuc2EvKFxcZCspLykuKiQiLCJyZWdleFR5cGUiOm51bGws InJlcGxhY2UiOiIkMSIsInRvIjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpb XX19 пожелания по улучшениям можно добавлять сюда http://a-parser.com/forum/issues/
подскажите где в моем пресете ошибка? Нужны именно такие замены. лог ничего особо не пишет. Спойлер eyJwcmVzZXQiOiJIYXJhal9BbnQiLCJ2YWx1ZSI6eyJwYXJzZXJzIjpbWyJOZXQ6 OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJv eHkiLCJ2YWx1ZSI6ZmFsc2V9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt YXRyZXN1bHQiLCJ2YWx1ZSI6IlslIGEuZm9ybWF0KCc8cGhvbmU+MDUkYjxwaG9u ZT5cXG4nKSAlXSAkYiJ9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6 InF1ZXJ5IiwicmVnZXgiOiIoX1xcZCspIiwicmVnZXhUeXBlIjoiIiwicmVzdWx0 VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoiYSIsInJlc3VsdHMiOlsiYiJdfSx7 InR5cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsiYSIsImIiXSwidW5pcXVlVHlwZSI6 InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6 IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxl TmFtZSI6IkhBUkFKX0FOVE9OJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0 aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJ5 Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZh aWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZl bHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVP cHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5k IjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNlIjoicXVlcnkiLCJ0eXBlIjoi cmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjAiLCJyZWdleFR5cGUiOiJnIiwi cmVwbGFjZSI6IjAiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5 cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2MSIsInJlZ2V4VHlwZSI6 ImciLCJyZXBsYWNlIjoiMSIsInRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5 IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXHUwNjYyIiwicmVnZXhU eXBlIjoiZyIsInJlcGxhY2UiOiIyIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoi cXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjMiLCJy ZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjMiLCJ0byI6InF1ZXJ5In0seyJzb3Vy Y2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2 NCIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNCIsInRvIjoicXVlcnkifSx7 InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4Ijoi XHUwNjY1IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2UiOiI1IiwidG8iOiJxdWVy eSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVn ZXgiOiJcdTA2NjYiLCJyZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjYiLCJ0byI6 InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2Ui LCJyZWdleCI6Ilx1MDY2NyIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNyIs InRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVw bGFjZSIsInJlZ2V4IjoiXHUwNjY4IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2Ui OiI4IiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVn ZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjkiLCJyZWdleFR5cGUiOiJnIiwicmVw bGFjZSI6IjkiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUi OiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IjwoLio/KT4iLCJyZWdleFR5cGUiOiJn IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IiAiLCJyZWdleFR5cGUiOiJn IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IlxcdCsiLCJyZWdleFR5cGUi OiJnIiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiIiLCJ0 eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcXHMrIiwicmVnZXhUeXBlIjoi ZyIsInJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoiIiwidHlw ZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXysiLCJyZWdleFR5cGUiOm51bGws InJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9XSwicmVzdWx0c0J1aWxkZXJzIjpb XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
P.S. надо сразу описывать задачу и какие проблемы на первый взгляд пресет бредовый, все действия выполняются над запросом($query), хотя запрос это просто ссылка на страницу, которую должен скачать Net::HTTP
Да никакой ошибки просто выполнено и все. Возможно и бредовй, просто я пока не понял сути где и что надо выполнять, слишком нужно все "Правильно" понимать, где что и как надо делать(. Суть, зайти на страницу, почистить ее код, получить группы чисел перед которыми будет знак _ и забрать их.
ну как я и написал выше что все выполняется над $query, а должно быть над результатом $data, я не исключаю что там еще может быть множество ошибок вообще незачем усложнять если не разобрался еще в базовых вещах я бы изначально парсил цифры на арабском да и все