1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Парсер текста: подсчет объема текста на странице 1.0.0

Пресет подсчитывает объем текста по ссылкам

  1. AntonR

    AntonR Member

    Регистрация:
    7 дек 2013
    Сообщения:
    84
    Симпатии:
    13
    Подскажите как подсчитать общий объем текста для запроса:
    1. У нас есть файл с фраза[tab]урл
    Код:
    a cruise to antarctica http://www.polarcruises.com/antarctica
    a cruise to antarctica http://www.cruisecritic.com/ports/area.cfm?area=54
    a cruise to antarctica http://www.silversea.com/destinations/antarctica-cruise/
    a cruise to antarctica http://www.quarkexpeditions.com/en/antarctic
    a cruise to antarctica http://www.expeditions.com/destinations/antarctica/
    a cruise to antarctica http://www.hollandamerica.com/cruise-destinations/grand-south-voyages-cruise
    a cruise to antarctica https://www.adventuresmithexplorations.com/antarctica
    a cruise to antarctica http://www.abercrombiekent.com/travel-destinations/antarctica-cruise/
    a cruise to antarctica http://www.nationalgeographicexpeditions.com/expeditions/antarctica-cruise/detail
    a cruise to antarctica http://www.coolantarctica.com/Travel/antarctica_travel_home.php
    adventure tours antarctica https://www.gadventures.com/destinations/polar/antarctica/
    adventure tours antarctica http://www.peregrineadventures.com/antarctica
    adventure tours antarctica http://www.tucantravel.com/destinations/antarctica
    adventure tours antarctica http://www.adventure-life.com/antarctica
    adventure tours antarctica http://www.quarkexpeditions.com/en/antarctic
    adventure tours antarctica http://www.nationalgeographicexpeditions.com/expeditions/antarctica-cruise/detail
    adventure tours antarctica http://www.intrepidtravel.com/antarctica
    adventure tours antarctica http://www.worldexpeditions.com/au/index.php?section=regions&id=91
    adventure tours antarctica http://www.rei.com/adventures/trips/antarctica
    adventure tours antarctica http://www.chimuadventures.com/country/antarctica
    
    2. подсчитать общий объем текста для каждой страницы и вывести в формате
    a cruise to antarctica[tab]Общий объем текста 1[tab]Общий объем текста 2[tab]Общий объем текста 3[tab]...[tab]Общий объем текста 10
    adventure tours antarctica[tab]Общий объем текста 1[tab]Общий объем текста 2[tab]Общий объем текста 3[tab]...[tab]Общий объем текста 10
     
    #1 AntonR, 1 дек 2015
    Последнее редактирование модератором: 2 дек 2015
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.375
    Симпатии:
    2.105
    Задача решается благодаря этому улучшению, поэтому показанный ниже пресет будет работать, начиная с версии 1.1.336.
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJwb3N0IDIwMDYiLCJ2YWx1ZSI6eyJwcmVzZXQiOiJwb3N0IDIw
    MDYiLCJwYXJzZXJzIjpbWyJIVE1MOjpUZXh0RXh0cmFjdG9yIiwiZGVmYXVsdCIs
    eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Im1pbmJsb2NrbGVuZ3RoIiwidmFsdWUi
    OiIwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5Zm9ybWF0IiwidmFs
    dWUiOiIkcXVlcnkubGluayJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJnb29k
    Q29kZSIsInZhbHVlIjoyMDB9XV0sInJlc3VsdHNGb3JtYXQiOiJbJSBrZXkgPSBx
    dWVyeS5rZXk7XG5sZW4gPSAwO1xuRk9SRUFDSCB0ID0gcDEudGV4dHM7XG5cdGxl
    biA9IGxlbiArIHQudGV4dC5sZW5ndGg7XG5FTkQ7XG5yZXN1bHQuJGtleSA9IHJl
    c3VsdC4ka2V5IF8gXCJcXHRcIiBfIGxlbiAlXSIsInJlc3VsdHNTYXZlVG8iOiJm
    aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIs
    ImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVl
    cnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZl
    RmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExl
    dmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwi
    cXVlcnlCdWlsZGVyc09uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25z
    Ijp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6
    Ik5vIiwibW9yZU9wdGlvbnMiOnRydWUsInJlc3VsdHNQcmVwZW5kIjoiWyUgcmVz
    dWx0ID0ge30gJV0iLCJyZXN1bHRzQXBwZW5kIjoiWyUgRk9SRUFDSCBrIElOIHJl
    c3VsdC5rZXlzO1xuXHRrIF8gcmVzdWx0LiRrIF8gXCJcXG5cIjtcbkVORCAlXSIs
    InF1ZXJ5QnVpbGRlcnMiOlt7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InN0cmlu
    Z1NwbGl0Iiwic2VwYXJhdG9yIjoiXHQiLCJ0byI6WyJrZXkiLCJsaW5rIl19XSwi
    cmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
    • Разделяем запрос на ключ и ссылку и подставляем их в нужном месте.
    • Используем HTML::TextExtractor для парсинга текста со страницы.
    • В общем формате результата (Result format) прописываем скрипт, который подсчитывает кол-во текста и записывает данные в массив.
    • В Конечном тексте (Append text) прописываем скрипт, который выводит окончательный результат.
    Результат:
    P.S. Нужно понимать, что из-за многопоточности порядок ссылок сбивается, и в результате количества текста для каждого ключа будут в произвольном порядке.
     
    AntonR нравится это.

Поделиться этой страницей