Мы — отдел развития технологий розничной сети. Однажды руководство поставило задачу ускорить объемные вычисления за счет использования Apache Ignite в связке с MSSQL, показало сайт с прекрасными иллюстрациями и примерами Java-кода. На сайте сразу понравился
1. Постановка задачи
Суть задачи в следующем. Есть справочник точек продаж SalesPoint и справочник товаров Sku (Stock Keeping Unit). Точка продаж имеет атрибут «типМагазина» со значениями «малый» и «большой». К каждой точке продаж подключается (загружается из СУБД) ассортимент (список товаров точки продаж) и подается информация о том, что с указанной даты указанный товар
исключается из ассортимента или добавляется в ассортимент.
Требуется организовать партиционированный кеш точек продаж и хранить в нем информацию о подключенных товарах на месяц вперед. Совместимость с боевой системой требует от клиентского узла Ignite загружать данные, вычислять агрегат вида (типМагазина, кодТовара, день, число_точек_продаж) и выгружать его обратно в СУБД.
2. Изучение литературы
Опыта пока что нет, так что начинаю плясать от печки. То есть с обзора публикаций.
Статья 2016 года
оптимистично обещает «You’ll be up and running in a jiffy!». Разбираюсь с настройками переменных среды, смотрю два видео Apache Ignite Essentials, для моей конкретной задачи они оказались не очень полезны. Успешно запускаю Ignite из командной строки со стандартным файлом «example-ignite.xml», собираю первое приложение
Читаю дальше, а там пример сразу использует affinityKey (создан ранее через SQL-запрос), да еще и применяется загадочный BinaryObject:
IgniteCache<BinaryObject, BinaryObject> people
= ignite.cache("Person").withKeepBinary();
Почитал
Переделываю Compute Application под свой случай. Первичный ключ справочника точек продаж в MSSQL определен как [id] [int] NOT NULL, создаю кеш по аналогии
IgniteCache<Integer, SalesPoint> salesPointCache=ignite.cache("spCache")
В xml-конфиге указываю, что кеш партиционирован
<bean class="org.apache.ignite.configuration.CacheConfiguration">
<property name="name" value="spCache"/>
<property name="cacheMode" value="PARTITIONED"/>
</bean>
Партиционирование по точкам продаж предполагает, что требуемый агрегат будет построен на каждом узле кластера для имеющихся там записей salesPointCache, после чего клиентский узел выполнит итоговое суммирование.
Читаю туториал
@Override
public void run() {
SalesPoint sp=salesPointCache.get(spId);
sp.calculateSalesPointCount();
..
}
Добавляю логику агрегации и выгрузки, запускаю на тестовом наборе данных. Локально на сервере разработки все работает.
Запускаю два тестовых сервера CentOs, указываю ip-адреса в default-config.xml, выполняю на каждом
./bin/ignite.sh config/default-config.xml
Оба узла Ignite запускаются и видят друг друга. Указываю нужные адреса в xml-конфиге клиентского приложения, оно запускается, добавляет третий узел в топологию и сразу же узлов становится снова два. В логе значится «ClassNotFoundException: model.SalesPoint» в строке
SalesPoint sp=salesPointCache.get(spId);
StackOverflow говорит, что причина ошибки — на серверах CentOs нет пользовательского класса SalesPoint. Приехали. Как же «you don’t have to manually deploy your Java code on each node» и далее по тексту? Или «your Java code» — это не про SalesPoint?
Вероятно я что-то упустил — снова начинаю искать, читать и снова искать. Через время возникает ощущение, что я прочитал по теме все, ничего нового уже нет. Пока искал, нашел несколько интересных замечаний.
Model classes are not peer deployed, but you can use withKeepBinary() flag
on the cache and query BinaryObjects. This way you will avoid deserialization
on the server side and will not get ClassNotFoundException.
Еще одно авторитетное мнение:
Статья на Хабре
That's it. Start (..) node using MaintenanceServiceNodeStartup file or pass
maintenance-service-node-config.xml to Apache Ignite's ignite.sh/bat scripts.
If you prefer the latter then make sure to build a jar file that will contain
all the classes from java/app/common and java/services/maintenance directories.
The jar has to be added to the classpath of every node where the service
might be deployed.
Действительно, that’s it. Вот он, оказывается, зачем, этот загадочный бинарный формат!
3. SingleJar
Denis занял в моем личном рейтинге первое место, имхо самый полезный туториал из всех доступных. В его
Делаю по образу и подобию, получаю единый файл jar, который запускает «data node» либо «client node» в зависимости от аргумента командной строки. Сборка запускается и работает. Zero Deployment побежден.
Переход от мегабайтов тестовых данных к десяткам гигабайтов боевых показал, что бинарный формат существует не зря. Потребовалось оптимизировать расход памяти на нодах, и вот тут BinaryObject оказался очень полезен.
4. Выводы
Первый встреченный упрек в невнятности документации проекта Apache Ignite оказался справедлив, с 2016 года поменялось немного. Новичку непросто собрать функционирующий прототип на основе сайта и/или репозитория.
По итогу проделанной работы сложилось впечатление, что Zero Deployment работает, но только на системном уровне. Примерно так: BinaryObject применяется, чтобы научить удаленные узлы кластера работать с пользовательскими классами; Zero Deployment — внутренний механизм
самого Apache Ignite и распространяет по кластеру системные объекты.
Надеюсь, мой опыт будет полезен новым пользователям Apache Ignite.
Источник: habr.com