Telegram::GroupScraper - Extractor de datos de grupos públicos en Telegram

Información general del extractor
Este extractor recopila datos sobre mensajes de grupos públicos en Telegram. El extractor de grupos/chats de Telegram realiza la recopilación de participantes que han escrito algo en el grupo, o si existe una notificación de servicio sobre su unión al grupo. Puede extraer todo el contenido de los grupos deseados, a saber: texto, imágenes, enlaces a videos, obtener información sobre la fecha de publicación, el autor (nombre, enlace al perfil, avatar).
Su lógica de funcionamiento difiere de otros extractores, ya que añade automáticamente consultas para recorrer todos los mensajes del grupo. Debido a esto, este extractor no se puede utilizar junto con ningún otro en la misma tarea.
Es posible guardar los resultados en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluyendo JSON, SQL y CSV.
Casos de uso del extractor
🔗 Extracción de usuarios
Extracción de usuarios de grupos públicos en Telegram
🔗 Extracción de todos los mensajes
Extracción de todos los mensajes de grupos públicos en Telegram
Datos recopilados
A continuación se indican los datos que se pueden recopilar por separado para canales públicos de Telegram y grupos de Telegram.
Qué se puede recopilar para canales de Telegram
Solo para canales de Telegram abiertos (públicos) están disponibles los siguientes datos:
- Enlace al mensaje
- Texto del mensaje
- Foto del mensaje
- Video del mensaje
- Fecha del mensaje
Qué se puede recopilar para grupos de Telegram
Solo para grupos de Telegram abiertos (públicos) están disponibles los siguientes datos:
- Enlace al mensaje
- Nombre del autor del mensaje
- Enlace al perfil del autor
- Avatar del autor
- Texto del mensaje
- Foto del mensaje
- Video del mensaje
- Fecha del mensaje
- Participantes que escribieron en el grupo
- Participantes de las notificaciones de servicio sobre la unión al grupo
Variantes de uso
- Recopilación de la lista de participantes del grupo
- Recopilación del contenido de todos los mensajes del grupo
Consultas
Como consultas, es necesario indicar el enlace al canal o grupo público (abierto), por ejemplo:
https://t.me/a_parser
Variantes de salida de resultados
A-Parser admite un formateo flexible de los resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como estructurada, por ejemplo CSV o JSON.
Salida por defecto
Formato del resultado:
$user_name($user_link): $message_text\n
Ejemplo de resultado:
(https://t.me/aparser): Para evitar el límite de 10 solicitudes desde una IP, es necesario extraer adicionalmente key= de la página principal
(https://t.me/aparser): Ahora miro
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>
Salida en tabla CSV
Formato del resultado:
[% tools.CSVline(query, user_link, message_date, message_text) %]
Ejemplo de resultado:
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Configuración - Guardar tamaño de ventana"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"ejecuto 20 tareas con 300 hilos, con un límite dinámico de 1200, se completan mucho más rápido debido a que todas funcionan simultáneamente y no hay atascos cuando quedan pocas solicitudes (hilos)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"bueno, proxies incluidos"
Procesamiento de resultados
A-Parser permite procesar los resultados directamente durante la extracción de datos; en esta sección presentamos los casos más populares para el extractor de Telegram.
Filtrado de resultados por la presencia de palabras en el mensaje

Es necesario añadir un filtro y seleccionar en la lista desplegable $message_text - Message text. Seleccionar el tipo La expresión regular coincide.
En el campo para la expresión regular, escriba la expresión regular con las palabras necesarias:
\bextractor\b|\bGoogle\b|\byandex\b|\bextractor\b|\bProxy\b|\bDorks\b
\b - límite de palabra
| - O
is - bandera de expresión regular
Descargar ejemplo
Cómo importar un ejemplo a A-Parser
eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=
Configuraciones posibles
| Parámetro | Valor por defecto | Descripción |
|---|---|---|
| Max empty posts | 1000 | Este parámetro indica cuántos mensajes vacíos (inexistentes) seguidos debe haber para que la extracción de datos de la consulta actual se detenga |
| Start message number | 1 | Este parámetro indica desde qué número recopilar mensajes en el chat de Telegram |