Подскажите новичку

Kreola · 8 окт 2014

Добрый день!
Ребята, подскажите пожалуйста как элементарно спарсить ссылки?
Пересмотрел надцать постов, все для старых версий описания, по новым совсем немогу разобрать что и как делать.
Возможно есть видеоуроки?

Forbidden · 8 окт 2014

зачем смотреть какие то посты? есть документация, в ней например http://a-parser.com/wiki/quick-task/

Kreola · 8 окт 2014

Читаю, куда ж без этого) Но все равно без более менее хорошего пинка, что-то туго идет.
Настраиваю парсер

На выходе получаю список ссылок в варианте

http://3tlin.com/show-soq-25568413.html مطلوب أفراد-مؤسسات لنقل محتوى موقع
<img src='http://3tlin.com/style/hexll/img/hexll_21.jpg' border='0px' width="189" height="188" />
http://3tlin.com/show-sector-57032714.html المؤسسة العامة للموانئ تعلن عن وظيفة خبير عمليات موانئ
В итоге, я пытаюсь сделать просто вот такую ссылку http://3tlin.com/show-soq-25568413.html, без jpg и остальной лабудени.
По моей пока недалекой логике, я могу это сделать в варианте получения запроса и в варианте послефильтрации, результат должен быть один и тот же, хотя может я и не прав.
Подскажите где я не то делаю.
И вопрос 2, а как же мне собрать все ссылки с сайта? Уверен что просто недочитал, ткните носом.
P.s. извините если что-то написал не туда или оформил не так.
Спасибо заранее.

Forbidden · 8 окт 2014

по умолчанию результат выводит в формате линк - анкор, поэтому в результатах присутсвует и текст помимо ссылок
задание должно выглядеть примерно так:

меняем формат результата чтобы записывать только ссылки

добавляем фильтр чтобы записывать только ссылки с вхождением show

добавляем опцию Parse to level чтобы парсер ходил в глубь сайта до указанного уровня

включаем уникальность запросов, чтобы парсер ходил только по уникальным ссылкам

Kreola · 9 окт 2014

Настроил все как Вы показали, нажимаю добавить задание и перехожу в Очередь заданий.
И наблюдаю картинку

Прошло 10 минут ничего не поменялось. Это так и должно быть?
Или я опять что-то не так сделал?
Вопрос 2.
Если все же нужно чтоб ссылки чистились, где это правильнее делать? В фильтрации? т.е. нужно из ссылки site.ru/aaa/bbb/ccc оставить
site.ru/aaa/
Возможно проблема в прокси?

Forbidden · 9 окт 2014

"Ожидающих потоков" 1 значит что поток ждет прокси, т.е. нету живых проксей

2. обрезать ссылки надо с помощью конструктора результатов, заменой или заменой по регулярному выражению(корректная замена с использованием переменных $1 $2... реализована в последней бета версии)

Kreola · 10 окт 2014

Приветики
Ну понемногу начинает доходить но все же.
Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах.
Вопрос б) настраиваю попытку почистить результаты ссылок через регулярное выражение.
Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли,

ибо когда я запускаю без этой попытки почистить результаты, то задание нормально обрабатывается.
а если с ней, то в заданиях вот такая картинка, а при попытке что либо сделать он просто висит, перехожу на сервер, там написано не отвечает (упал короче). Перезапускаю, все вроде работает. Пока не сделаю тоже самое. Это серв на любое такое действие так себя будет вести?

Forbidden · 11 окт 2014

Kreola сказал(а): ↑

Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах.
Нажмите, чтобы раскрыть...

если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются
запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания

Kreola сказал(а): ↑

Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли
Нажмите, чтобы раскрыть...

для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера

Kreola · 11 окт 2014

Forbidden сказал(а): ↑

если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются
запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания
Нажмите, чтобы раскрыть...

т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api

Forbidden сказал(а): ↑

для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера
Нажмите, чтобы раскрыть...

Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал?
Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/
применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?

Forbidden · 11 окт 2014

Kreola сказал(а): ↑

т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api
Нажмите, чтобы раскрыть...

не совсем понял вопроса, 50-100 парсингов одного и того же с теми же ключами?

Forbidden · 11 окт 2014

Kreola сказал(а): ↑

т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api
Нажмите, чтобы раскрыть...

не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз?

Kreola сказал(а): ↑

Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал?
Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/
применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?
Нажмите, чтобы раскрыть...

на вид вроде все правильно, какой результат? какая версия?

Kreola · 11 окт 2014

Forbidden сказал(а): ↑

не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз?
Нажмите, чтобы раскрыть...

перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить?

Forbidden сказал(а): ↑

на вид вроде все правильно, какой результат? какая версия?
Нажмите, чтобы раскрыть...

версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.

Forbidden · 11 окт 2014

Kreola сказал(а): ↑

перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить?
Нажмите, чтобы раскрыть...

для полной автоматизации можно использовать API

если вручную - то просто делать Duplicate на задании из очереди

Kreola сказал(а): ↑

версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.
Нажмите, чтобы раскрыть...

правильно, только как я говорил надо поставить бету версию, в 1.1.61 данный функционал работает некорректно

Kreola · 13 окт 2014

Уважаемый админ, разъясните мне, что-то я не могу врубиться.
Я поставил версию 1.1.79 оставил настройку такую же.
я пытаюсь применить RegexReplace ^(http:\/\/haraj\.com\.sa\/(\d+)\/)(.*?)$ => $1
но парсер просто зависает.
+ я хочу фильтровать начальные запросы. по тому же методу. Но опять же ничего не работает.
И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ.
Помогите правильно настроить.

Forbidden · 13 окт 2014

Исправлено в версии 1.1.86
навсякий случай код пресета:
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6
TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6Im9wdGlvbnMiLCJpZCI6
InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGludGxpbmtzLmZvcm1hdCgnJGxpbmtc
XG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1Nh
dmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0
KCkudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoi
bm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6dHJ1
ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi
b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
cyI6W3sic291cmNlIjpbMCxbImludGxpbmtzIiwibGluayJdXSwidHlwZSI6InJl
Z2V4UmVwbGFjZSIsImFycmF5IjoiaW50bGlua3MiLCJyZWdleCI6Il4oaHR0cDov
L2hhcmFqXFwuY29tXFwuc2EvKFxcZCspLykuKiQiLCJyZWdleFR5cGUiOm51bGws
InJlcGxhY2UiOiIkMSIsInRvIjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpb
XX19
Kreola сказал(а): ↑

И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ.
Нажмите, чтобы раскрыть...

пожелания по улучшениям можно добавлять сюда http://a-parser.com/forum/issues/

Kreola · 20 окт 2014

подскажите где в моем пресете ошибка?
Нужны именно такие замены. лог ничего особо не пишет.

eyJwcmVzZXQiOiJIYXJhal9BbnQiLCJ2YWx1ZSI6eyJwYXJzZXJzIjpbWyJOZXQ6
OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJv
eHkiLCJ2YWx1ZSI6ZmFsc2V9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt
YXRyZXN1bHQiLCJ2YWx1ZSI6IlslIGEuZm9ybWF0KCc8cGhvbmU+MDUkYjxwaG9u
ZT5cXG4nKSAlXSAkYiJ9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6
InF1ZXJ5IiwicmVnZXgiOiIoX1xcZCspIiwicmVnZXhUeXBlIjoiIiwicmVzdWx0
VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoiYSIsInJlc3VsdHMiOlsiYiJdfSx7
InR5cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsiYSIsImIiXSwidW5pcXVlVHlwZSI6
InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6
IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxl
TmFtZSI6IkhBUkFKX0FOVE9OJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJ5
Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZh
aWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZl
bHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVP
cHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5k
IjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNlIjoicXVlcnkiLCJ0eXBlIjoi
cmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjAiLCJyZWdleFR5cGUiOiJnIiwi
cmVwbGFjZSI6IjAiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5
cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2MSIsInJlZ2V4VHlwZSI6
ImciLCJyZXBsYWNlIjoiMSIsInRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5
IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXHUwNjYyIiwicmVnZXhU
eXBlIjoiZyIsInJlcGxhY2UiOiIyIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoi
cXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjMiLCJy
ZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjMiLCJ0byI6InF1ZXJ5In0seyJzb3Vy
Y2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2
NCIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNCIsInRvIjoicXVlcnkifSx7
InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4Ijoi
XHUwNjY1IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2UiOiI1IiwidG8iOiJxdWVy
eSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVn
ZXgiOiJcdTA2NjYiLCJyZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjYiLCJ0byI6
InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2Ui
LCJyZWdleCI6Ilx1MDY2NyIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNyIs
InRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVw
bGFjZSIsInJlZ2V4IjoiXHUwNjY4IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2Ui
OiI4IiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVn
ZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjkiLCJyZWdleFR5cGUiOiJnIiwicmVw
bGFjZSI6IjkiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUi
OiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IjwoLio/KT4iLCJyZWdleFR5cGUiOiJn
IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IiAiLCJyZWdleFR5cGUiOiJn
IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IlxcdCsiLCJyZWdleFR5cGUi
OiJnIiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiIiLCJ0
eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcXHMrIiwicmVnZXhUeXBlIjoi
ZyIsInJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoiIiwidHlw
ZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXysiLCJyZWdleFR5cGUiOm51bGws
InJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9XSwicmVzdWx0c0J1aWxkZXJzIjpb
XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19

Forbidden · 20 окт 2014

Какая именно ошибка?

Forbidden · 20 окт 2014

P.S. надо сразу описывать задачу и какие проблемы

на первый взгляд пресет бредовый, все действия выполняются над запросом($query), хотя запрос это просто ссылка на страницу, которую должен скачать Net::HTTP

Kreola · 20 окт 2014

Да никакой ошибки просто выполнено и все.

Возможно и бредовй, просто я пока не понял сути где и что надо выполнять, слишком нужно все "Правильно" понимать, где что и как надо делать(.
Суть, зайти на страницу, почистить ее код, получить группы чисел перед которыми будет знак _ и забрать их.

Forbidden · 20 окт 2014

ну как я и написал выше что все выполняется над $query, а должно быть над результатом $data, я не исключаю что там еще может быть множество ошибок
вообще незачем усложнять если не разобрался еще в базовых вещах

я бы изначально парсил цифры на арабском да и все

Подскажите новичку

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Подскажите новичку

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Kreola Member

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise