Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Клуб программистов > Свободное общение
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 27.05.2018, 11:17   #1
EducatedFool
Программист VBA
СуперМодератор
 
Аватар для EducatedFool
 
Регистрация: 13.07.2008
Сообщений: 6,856
По умолчанию Парсинг сайтов: что лучше сделать, - веб-сервис или программу?

Всем привет

История такая: есть у меня программа для парсинга разных сайтов, большим спросом пользуется, многим нравится, — но написана она на VBA (то есть плагин для Excel)

И вот задумался я о том, что поддержка макросов в Excel в любой момент может прекратиться, и не сделать ли мне из программы этой (точнее, по её подобию) «нормальную» прогу (приложение под Windows) или веб-сервис.

Собственно, ни в том ни в другом сам сделать не смогу, потому, придется заказывать разработку спецам (что выйдет недешево, ибо у меня там более 20 тыс строк кода), а потом самостоятельно уже допиливать помаленьку.
Но знаю, что разработка однозначно окупится.
Вот только ясности, что более востребовано будет через 5 лет для этой конкретной задачи (парсинг), у меня нет

Что посоветуете?

Веб-сервис удобен, но на сервак будет жесткая нагрузка (когда десятки клиентов запустят с него парсинг разных сайтов), потому, придется за трафик много платить, и аренда хорошего железа будет стоить дорого.
Но с пользователей можно будет брать абонентскую плату (ибо это будет SAAS)

Программа для компа - потребляет ресурсы компа, потому, от меня вообще никаких затрат. Но программы взламывают, да и антивирусы на парсеры ругаются постоянно.
На каком языке программирования делать прогу, если для компа?
Стоит ли делать кроссплатформенное решение, или все до сих пор на виндах сидят, и версии для windows будет достаточно?

Наверняка есть люди, кто в теме, - так что жду советов
Ну и если просто мысли есть на этот счёт, - с удовольствием выслушаю.
EducatedFool вне форума Ответить с цитированием
Старый 27.05.2018, 11:25   #2
Alar
Александр
Администратор
 
Аватар для Alar
 
Регистрация: 28.10.2006
Сообщений: 17,501
По умолчанию

однозначно веб-сервис. сразу на английском языке делайте.
Alar вне форума Ответить с цитированием
Старый 27.05.2018, 11:38   #3
Alex11223
Старожил
 
Аватар для Alex11223
 
Регистрация: 12.01.2011
Сообщений: 19,500
По умолчанию

Цитата:
Сообщение от EducatedFool Посмотреть сообщение
или все до сих пор на виндах сидят
Мы-то откуда знаем? У клиентов и спрашивайте.
Все по-разному в разных сферах.
Цитата:
Сообщение от EducatedFool Посмотреть сообщение
но на сервак будет жесткая нагрузка (когда десятки клиентов запустят с него парсинг разных сайтов), потому, придется за трафик много платить
Скорее всего вы переоцениваете нагрузку.
Если вы не используете полноценный браузер и т.п., то вряд ли от пары десятков будет большая нагрузка и много трафика.
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом.
Alex11223 вне форума Ответить с цитированием
Старый 27.05.2018, 12:30   #4
waleri
Старожил
 
Регистрация: 13.07.2012
Сообщений: 6,330
По умолчанию

Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Веб-сервис
Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Программа для компа
Для того, чтоб сделать веб сервис все равно надо будет сделать программу, так что вопрос как бы не стоит.
UI, с другой стороны, нынче тоже делают на HTML, даже для "программ", так что 90% кода будет одним и тем же и для программы и для веб сервиса.
waleri вне форума Ответить с цитированием
Старый 28.05.2018, 12:31   #5
kvitaliy
Участник клуба
 
Регистрация: 17.05.2011
Сообщений: 1,660
По умолчанию

Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Но программы взламывают, да и антивирусы на парсеры ругаются постоянно.
На каком языке программирования делать прогу, если для компа?
У вас сейчас вообще VBA, это и взламывать не надо, просто открыть и посмотреть, что там написано!
di-P7L2RZ.png
Если знаете VBA то на VB6 и переучиваться не надо. Всё то же самое кроме нового интерфейса. А вот исходник из VB6 вытащить гораздо сложнее.
kvitaliy вне форума Ответить с цитированием
Старый 28.05.2018, 12:39   #6
Stanislav
Квадрокоптерист
Участник клуба Подтвердите свой е-майл
 
Регистрация: 29.09.2007
Сообщений: 1,824
По умолчанию

Цитата:
я программа для парсинга разных сайтов
а на python не рассматривали парсеры?
Я часть той силы, что вечно хочет зла, но вечно совершает благо..
Stanislav вне форума Ответить с цитированием
Старый 28.05.2018, 13:43   #7
EducatedFool
Программист VBA
СуперМодератор
 
Аватар для EducatedFool
 
Регистрация: 13.07.2008
Сообщений: 6,856
По умолчанию

Всем большое спасибо за ответы.
Потихоньку приходит понимание, что как делать надо

Цитата:
Если знаете VBA то на VB6 и переучиваться не надо. Всё то же самое кроме нового интерфейса
VB6 - там не новый же интерфейс
Исходник вытащить проблема оттуда, знаю (excel файл со сложным кодом невозможно защитить), но VBA и VB6 остановили своё развитие в прошлом веке, и средств языка не хватает (приходится изобретать велосипеды)
Да и делать коммерческий продукт в расчётом на будущее на VB6 - как-то несерьёзно
Потому, его не рассматриваю, - потеряю интеграцию с Excel, а плюсов никаких не будет.

Цитата:
а на python не рассматривали парсеры
Так мне что python, что любой другой язык, - если я в этом не разбираюсь, мне особо не важно, на чем делать.
Кроме VB6/VBA, знаю только php немного

Цитата:
Для того, чтоб сделать веб сервис все равно надо будет сделать программу, так что вопрос как бы не стоит
Подскажите, а на чём пишут программы подобные для использования в веб-сервисах?
Я думал, там на php надо всё делать, и интерфейс, и движок программы
Или я глубоко заблуждаюсь?
EducatedFool вне форума Ответить с цитированием
Старый 28.05.2018, 13:55   #8
Stanislav
Квадрокоптерист
Участник клуба Подтвердите свой е-майл
 
Регистрация: 29.09.2007
Сообщений: 1,824
По умолчанию

Цитата:
Так мне что python, что любой другой язык, - если я в этом не разбираюсь, мне особо не важно, на чем делать.
когда я написал первый парсер питон в глаза видел второй раз. он очень простой, и с помощью либ для парсинга так вообще говорить нечего
Я часть той силы, что вечно хочет зла, но вечно совершает благо..
Stanislav вне форума Ответить с цитированием
Старый 28.05.2018, 14:36   #9
waleri
Старожил
 
Регистрация: 13.07.2012
Сообщений: 6,330
По умолчанию

Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Подскажите, а на чём пишут программы подобные для использования в веб-сервисах?
На чем угодно. Например через CGI и иже с ним можно запускать бинарник а бинарник можно написать на чем угодно. А можно вообще сделать приложение со своим серваком, как делают всякие NodeJS.
Все упирается в ваши возможности, знания и умения. Если знаете PHP - пишите на PHP.
waleri вне форума Ответить с цитированием
Старый 28.05.2018, 17:22   #10
Ottava
Форумчанин
 
Регистрация: 05.09.2017
Сообщений: 157
По умолчанию

* Парсеры - зло, поэтому у меня все хостинги заблокированы в firewall. С хостингов на сайты ничего хорошего не приходит априори.

Но тем не менее, могу поучаствовать на уровне осуждения идей.

- делать надо web-сервис, масштабировать под нагрузку можно, например, через amazon EC2 просто клонируя парсящие ноды.

- писать модуль парсера надо скорее всего на Go или чём-то подобном, но этот вопрос надо копнуть поглубже. Скорее всего проект должен быть модульным, и каждый независимый модуль придется писать на своём (наиболее подходящем) языке, или брать готовый (OpenSource). Ибо нет никакого смысла разрабатывать всё самому и с нуля.

- придется прилаживать разгадывалку капч. Посмотреть что умеет HRumer, на первых порах приладить внешние сервисы разгадывания капч. Возможно имеет смысл заложить свою нейронную сеть по разгадывания образов на картинках).

- предусмотреть подключение к парсерам внешних прокси, VPN и сети Tor.

- кроме парсинга сайтов на заказ надо предусмотреть другие сервисы, которые могут быть востребованы:

1. проверка и анализ внешних ссылок на сайты, как ahrefs и majestic. Последний развернул собственную сеть nod на компах пользователей, и парсит сайты не с IP hosting-провайдеров. Поэтому заблокировать его достаточно сложно.

2. сделать поиск сайтов по ID Google Adsense и Google Analytics

3. посмотреть что ещё закрыли поисковики для поиска, и добавить возможность искать это, адаптируясь по нужды SEO.


PS: Короче, одному не справиться, нужна команда и проработка масштабного проекта. Другое делать смысла нет, оно уже есть на рынке.

PPS: Так это ваш VBA-парсер я баню по Юзерагенту '"Microsoft Office Excel" ?
Безопасность с Content Security Policy

Последний раз редактировалось Ottava; 28.05.2018 в 17:41.
Ottava вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Что для вас важнее. Сервис или люди, которые этот сервис делают? Alar Свободное общение 4 23.03.2017 09:38
Нужна помощь - с помощью какой программы или программ лучше всего сделать игру ? ( такие как "что ? где? когда?" или "Самый умный" EOTE Помощь студентам 10 09.12.2016 22:58
Прошу помощи: посоветуйте, что лучше начать изучать первым java или Python и что конкретно создается на каждом из языков orionit Помощь студентам 4 14.05.2015 08:20
Парсинг или часть странички в webbrowser? Как лучше? Fahman Общие вопросы Delphi 32 18.11.2013 15:59
Экономия памяти. Что лучше: метод класса или процедура с параметрами... или без разницы? 3D Hunter Общие вопросы Delphi 7 26.12.2011 23:23