Подскажите новичку

  • Автор темы Автор темы Kreola
  • Дата начала Дата начала

Kreola

Member
Добрый день!
Ребята, подскажите пожалуйста как элементарно спарсить ссылки?
Пересмотрел надцать постов, все для старых версий описания, по новым совсем немогу разобрать что и как делать.
Возможно есть видеоуроки?
 
Читаю, куда ж без этого) Но все равно без более менее хорошего пинка, что-то туго идет.
Настраиваю парсер
a93aeeb4e810cccd183cbe0fecc167ad.png

На выходе получаю список ссылок в варианте

http://3tlin.com/show-soq-25568413.html مطلوب أفراد-مؤسسات لنقل محتوى موقع
<img src='http://3tlin.com/style/hexll/img/hexll_21.jpg' border='0px' width="189" height="188" />
http://3tlin.com/show-sector-57032714.html المؤسسة العامة للموانئ تعلن عن وظيفة خبير عمليات موانئ
В итоге, я пытаюсь сделать просто вот такую ссылку http://3tlin.com/show-soq-25568413.html, без jpg и остальной лабудени.
По моей пока недалекой логике, я могу это сделать в варианте получения запроса и в варианте послефильтрации, результат должен быть один и тот же, хотя может я и не прав.
Подскажите где я не то делаю.
И вопрос 2, а как же мне собрать все ссылки с сайта? Уверен что просто недочитал, ткните носом.
P.s. извините если что-то написал не туда или оформил не так.
Спасибо заранее.
 
по умолчанию результат выводит в формате линк - анкор, поэтому в результатах присутсвует и текст помимо ссылок
задание должно выглядеть примерно так:
4IY14.png


  • меняем формат результата чтобы записывать только ссылки
  • добавляем фильтр чтобы записывать только ссылки с вхождением show
  • добавляем опцию Parse to level чтобы парсер ходил в глубь сайта до указанного уровня
  • включаем уникальность запросов, чтобы парсер ходил только по уникальным ссылкам
 
Настроил все как Вы показали, нажимаю добавить задание и перехожу в Очередь заданий.
И наблюдаю картинку
52ae19e5b6d1c5e91a28f108a1a6906a.png

Прошло 10 минут ничего не поменялось. Это так и должно быть?
Или я опять что-то не так сделал?
Вопрос 2.
Если все же нужно чтоб ссылки чистились, где это правильнее делать? В фильтрации? т.е. нужно из ссылки site.ru/aaa/bbb/ccc оставить
site.ru/aaa/
Возможно проблема в прокси?
 
"Ожидающих потоков" 1 значит что поток ждет прокси, т.е. нету живых проксей

2. обрезать ссылки надо с помощью конструктора результатов, заменой или заменой по регулярному выражению(корректная замена с использованием переменных $1 $2... реализована в последней бета версии)
 
Приветики
Ну понемногу начинает доходить но все же.
Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах.
Вопрос б) настраиваю попытку почистить результаты ссылок через регулярное выражение.
Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли,
9bd17feb6f388591893df77e65d4b74b.png

ибо когда я запускаю без этой попытки почистить результаты, то задание нормально обрабатывается.
а если с ней, то в заданиях вот такая картинка,
34ee6f8b72fafbdf1d78197320e60a51.png
а при попытке что либо сделать он просто висит, перехожу на сервер, там написано не отвечает (упал короче).
17b7dccaca3af080ee06fb7b0e56d2a0.png
Перезапускаю, все вроде работает. Пока не сделаю тоже самое. Это серв на любое такое действие так себя будет вести?
 
Вопрос а) почему при перегрузке сервера, запросы пропадают из заданий? т.е. я настроил, сохранил, а когда открываю по новой, нет уже сайта в запросах.
если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются
запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания

Если я правильно понял, то они коректно работают лишь в бетке. Но меня интересует правильно ли вообще идет ход мысли
для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера
 
если имеются ввиду сохраненные задания - то запросы не относятся к настройкам заданиям и не сохраняются
запросы которые использовались в задании в очереди можно просмотреть сделав дубликат этого задания
т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api

для замены необходимо использовать Regex Replace, если использовать Regex Match и сохранять результат в тот же массив то это просто зацикливает работу парсера
Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал?
Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/
применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?
701d60d35d54b6ec55bc19aaa950cf0a.png
 
т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api

не совсем понял вопроса, 50-100 парсингов одного и того же с теми же ключами?
 
т.е. если у меня будет 50-100 парсингов которые мне нужно будет запускать каждый день, то как я правильно понимаю, запрос можно будет настроить при настройки соответствующего api

не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз?

Видимо я не совсем понимаю работу Regex Replace, подскажите правильно ли я сделал?
Нужно формировать из ссылок site.ru/12345/blablabla =>site.ru/12345/
применяю Regex Replace (слева патерн, справа замена на $1) или опять не так?

на вид вроде все правильно, какой результат? какая версия?
 
не совсем понятен вопрос, необходимо парсить одни и те же кеи 50-100 раз?
перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить?

на вид вроде все правильно, какой результат? какая версия?
версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.
 
перефразирую, я каждый день должен снимать данные по одному и тому же запросу. Как я должен настроить парсер, чтоб мне не приходилось этот самый запрос постоянно вводить?

для полной автоматизации можно использовать API

если вручную - то просто делать Duplicate на задании из очереди

версия 1.61, результат еще не видел сам, просто решил удостовериться, что правильно понял.
правильно, только как я говорил надо поставить бету версию, в 1.1.61 данный функционал работает некорректно
 
Уважаемый админ, разъясните мне, что-то я не могу врубиться.
Я поставил версию 1.1.79 оставил настройку такую же.
я пытаюсь применить RegexReplace ^(http:\/\/haraj\.com\.sa\/(\d+)\/)(.*?)$ => $1
но парсер просто зависает.
+ я хочу фильтровать начальные запросы. по тому же методу. Но опять же ничего не работает.
И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ.
Помогите правильно настроить.
602171a4c89efdc57fa0da5f99ca1d7e.png
 
Исправлено в версии 1.1.86
навсякий случай код пресета:
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6
TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6Im9wdGlvbnMiLCJpZCI6
InBhcnNlTGV2ZWwiLCJ2YWx1ZSI6M30seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJGludGxpbmtzLmZvcm1hdCgnJGxpbmtc
XG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1Nh
dmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0
KCkudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoi
bm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6dHJ1
ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi
b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
cyI6W3sic291cmNlIjpbMCxbImludGxpbmtzIiwibGluayJdXSwidHlwZSI6InJl
Z2V4UmVwbGFjZSIsImFycmF5IjoiaW50bGlua3MiLCJyZWdleCI6Il4oaHR0cDov
L2hhcmFqXFwuY29tXFwuc2EvKFxcZCspLykuKiQiLCJyZWdleFR5cGUiOm51bGws
InJlcGxhY2UiOiIkMSIsInRvIjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpb
XX19

И нельзя ли сделать такую фишку в парсере, чтоб понимать будет работать данная регулярка или нет. т.е. что-то типа калькулятора (в виде отдельной вкладки). Мы туда запрос, а он нам ответ.

пожелания по улучшениям можно добавлять сюда http://a-parser.com/forum/issues/
 
подскажите где в моем пресете ошибка?
Нужны именно такие замены. лог ничего особо не пишет.


eyJwcmVzZXQiOiJIYXJhal9BbnQiLCJ2YWx1ZSI6eyJwYXJzZXJzIjpbWyJOZXQ6
OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJv
eHkiLCJ2YWx1ZSI6ZmFsc2V9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt
YXRyZXN1bHQiLCJ2YWx1ZSI6IlslIGEuZm9ybWF0KCc8cGhvbmU+MDUkYjxwaG9u
ZT5cXG4nKSAlXSAkYiJ9LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6
InF1ZXJ5IiwicmVnZXgiOiIoX1xcZCspIiwicmVnZXhUeXBlIjoiIiwicmVzdWx0
VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoiYSIsInJlc3VsdHMiOlsiYiJdfSx7
InR5cGUiOiJ1bmlxdWUiLCJyZXN1bHQiOlsiYSIsImIiXSwidW5pcXVlVHlwZSI6
InN0cmluZyIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX1dXSwicmVzdWx0c0Zvcm1hdCI6
IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxl
TmFtZSI6IkhBUkFKX0FOVE9OJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJ5
Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZh
aWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZl
bHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVP
cHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5k
IjoiIiwicXVlcnlCdWlsZGVycyI6W3sic291cmNlIjoicXVlcnkiLCJ0eXBlIjoi
cmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjAiLCJyZWdleFR5cGUiOiJnIiwi
cmVwbGFjZSI6IjAiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5
cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2MSIsInJlZ2V4VHlwZSI6
ImciLCJyZXBsYWNlIjoiMSIsInRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5
IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXHUwNjYyIiwicmVnZXhU
eXBlIjoiZyIsInJlcGxhY2UiOiIyIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoi
cXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjMiLCJy
ZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjMiLCJ0byI6InF1ZXJ5In0seyJzb3Vy
Y2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6Ilx1MDY2
NCIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNCIsInRvIjoicXVlcnkifSx7
InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4Ijoi
XHUwNjY1IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2UiOiI1IiwidG8iOiJxdWVy
eSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwicmVn
ZXgiOiJcdTA2NjYiLCJyZWdleFR5cGUiOiJnIiwicmVwbGFjZSI6IjYiLCJ0byI6
InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJyZWdleFJlcGxhY2Ui
LCJyZWdleCI6Ilx1MDY2NyIsInJlZ2V4VHlwZSI6ImciLCJyZXBsYWNlIjoiNyIs
InRvIjoicXVlcnkifSx7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InJlZ2V4UmVw
bGFjZSIsInJlZ2V4IjoiXHUwNjY4IiwicmVnZXhUeXBlIjoiZyIsInJlcGxhY2Ui
OiI4IiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoicXVlcnkiLCJ0eXBlIjoicmVn
ZXhSZXBsYWNlIiwicmVnZXgiOiJcdTA2NjkiLCJyZWdleFR5cGUiOiJnIiwicmVw
bGFjZSI6IjkiLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIsInR5cGUi
OiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IjwoLio/KT4iLCJyZWdleFR5cGUiOiJn
IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IiAiLCJyZWdleFR5cGUiOiJn
IiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiJxdWVyeSIs
InR5cGUiOiJyZWdleFJlcGxhY2UiLCJyZWdleCI6IlxcdCsiLCJyZWdleFR5cGUi
OiJnIiwicmVwbGFjZSI6Il8iLCJ0byI6InF1ZXJ5In0seyJzb3VyY2UiOiIiLCJ0
eXBlIjoicmVnZXhSZXBsYWNlIiwicmVnZXgiOiJcXHMrIiwicmVnZXhUeXBlIjoi
ZyIsInJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9LHsic291cmNlIjoiIiwidHlw
ZSI6InJlZ2V4UmVwbGFjZSIsInJlZ2V4IjoiXysiLCJyZWdleFR5cGUiOm51bGws
InJlcGxhY2UiOiJfIiwidG8iOiJxdWVyeSJ9XSwicmVzdWx0c0J1aWxkZXJzIjpb
XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
 
Последнее редактирование модератором:
P.S. надо сразу описывать задачу и какие проблемы

на первый взгляд пресет бредовый, все действия выполняются над запросом($query), хотя запрос это просто ссылка на страницу, которую должен скачать Net::HTTP
 
194d3e2d6758285bf3a7d27e1fb7540b.png

Да никакой ошибки просто выполнено и все.

Возможно и бредовй, просто я пока не понял сути где и что надо выполнять, слишком нужно все "Правильно" понимать, где что и как надо делать(.
Суть, зайти на страницу, почистить ее код, получить группы чисел перед которыми будет знак _ и забрать их.
 
ну как я и написал выше что все выполняется над $query, а должно быть над результатом $data, я не исключаю что там еще может быть множество ошибок
вообще незачем усложнять если не разобрался еще в базовых вещах :)

я бы изначально парсил цифры на арабском да и все
 
Назад
Верх