clickhouse

Highload - 7 месяцев назад

Использование AggregatingMergeTree в Clickhouse

Даже колоночные базы данных, вроде Clickhouse, сталкиваются с проблемами слишком большого количества данных и слишком медленных запросов. Для таких случаев используют методики агрегирования данных, что позволяет экономить место и упрощать выборки.

Highload - 8 месяцев назад

Сбор метрик из Nginx’a в Clickhouse

Запись данных в Clickhouse (и другие векторные базы) может достигать производительности в миллионы строк в секунду. Для этого важно писать данные крупными пакетами (сотни тысяч…миллионы строк в пакете).

Highload - 10 месяцев назад

JOIN нескольких таблиц в Clickhouse

Поддержка JOIN’ов в Clichouse ограничена. Кроме непривычной работы самого объединения, есть еще и ограничение на последовательное объединение только двух таблиц:

Highload - 11 месяцев назад

Truncate table в Clickhouse

На текущий момент (февраль 2018) Clickhouse не поддерживает инструкцию TRUNCATE для полной очистки таблицы. Вместо этого можно удалить и пересоздать таблицу:

Highload - 11 месяцев назад

Использование Clickhouse для фильтрации по колонкам

Существует группа задач, которая связана с необходимостью фильтровать данные по большому количеству колонок в таблице. Например, в одном из наших аналитических решений, есть таблица товаров:

Highload - 1 год назад

Список партиций в ClickHouse

Чтобы выбрать все партиции для всех таблиц нужно выполнить такой запрос:
SELECT * FROM system.parts
# вернет большую таблицу с кучей колонок

Highload - 1 год назад

Работа с JOIN в Clickhouse

Clickhouse поддерживает JOIN таблиц с несколькими нюансами. Синтаксис привычный:

Highload - 1 год назад

Clickhouse: как узнать размеры таблиц?

Чтобы вывести все таблицы на сервере Clickhouse с их размера в Гб, используйте этот запрос:
SELECT table, round(sum(bytes) / 1024/1024/1024, 2) as size_gb

Highload - 1 год назад

EXPLAIN в Clickhouse

Clickhouse пока не поддерживает (февраль 2018) EXPLAIN и не имеет механизмов профилирования. Однако, можно использовать записи в логе для базового анализа эффективности запроса.

Highload - 1 год назад

Выполнение запросов к Distributed таблицам Clickhouse

Движок Distributed в Clickhouse позволяет работать с большими объемами данных, которые распределены между множеством серверов. Движок Distributed позволяет задать шарды (сервера), на которых хранятся данные и читать/записывать их. Запись данных – это скорее функция для удобства, т.к. более управляемый подход состоит в том, чтобы записывать данные прямо на шарды самостоятельно. А вот чтение данных – это мега удобная функция Distributed таблицы.

Highload - 1 год назад

Использование индексов в Clickhouse

Clickhouse — это колоночная база данных от Яндекс. База специально разработана для аналитических задач на больших объемах.

Highload - 2 года назад

Удаление и обновление данных в Clickhouse

В Clickhouse нет поддержки удалений и обновлений. Однако существует большое [https://ruhighload.com/doc/clickhouse/ количество движков] для разных задач.

Highload - 2 года назад

Распределенное хранение данных в Clickhouse

Рано или поздно объемы (аналитических) данных выходят за пределы возможностей одного сервера. В любом случае, если объем данных больше, чем 10Тб, пора думать о распределенном хранилище.

Highload - 2 года назад

Бекап и восстановление в Clickhouse

Процедура бекапа и восстановления в Clickhouse связана с прямыми операциями с файлами и не требует никаких дополнительных инструментов. Физически эта база данных оперирует не таблицами, а партициями – частями таблиц.