powered by simpleCommunicator - 2.0.30     © 2024 Programmizd 02
Map
Форумы / NoSQL, Big Data [закрыт для гостей] / Snowflake
14 сообщений из 14, страница 1 из 1
Snowflake
    #712688
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
Буду вести здесь дайджест новостей, событий и просто обсуждений по Snowflake. Уж больно активно эта платформа развивается. Если есть что сказать по сабжу, -- милости прошу.
Позже планирую создать аналогичный раздел по Databricks.
...
Рейтинг: 0 / 0
Snowflake
    #713042
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
Итак, как уже было отмечено в соседней теме про Teradata, в Snowflake можно деплоить полноценные жава программы (посредством .jar), разработанные локально c unit-тестами и т.п. Затем можно использовать эту функциональность для создания своих User Defined Functions (UDF), которые, в свою очередь, можно вызывать в Snowflake напрямую из SQL.

Например, создадим простую UDF на базе jar-файла:
Код: SQL
1.
2.
3.
4.
5.
CREATE or REPLACE FUNCTION AddMyNumbers (a integer, b integer)
returns string
language JAVA
imports = (‘[b]@myjars/AddNumbers.jar[/b]’)
handler = ‘AddNumbers.addNum’;
Теперь можно вызвать её как обычную функцию в SQL:
Код: SQL
1.
SELECT AddMyNumbers(1,2);
Также можно использовать джарники для пайплайнов в SnowPark, но про SnowPark я сделаю отдельный пост.
...
Рейтинг: 0 / 0
Snowflake
    #713045
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
Если по какой-либо причине вы не пишите на JVM-языках, а используете Python, то ваши кастомные Python пакеты пакуются в .zip и отправляются в Snowflake, где могут быть использованы либо при создании User Defined Functions/Procedures для вызова из SQL, либо импортрироваться в Snowpark код как обычно через import my_package.

https://medium.com/snowflake/using-other-python-packages-in-snowpark-a6fd75e4b23a
...
Рейтинг: 0 / 0
Snowflake
    #754518
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем сермяжные аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере кейсов Databricks и Snowflake.

Продолжение здесь
...
Рейтинг: 0 / 0
Snowflake
    #850341
reload
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кусь  10.04.2024, 01:00
[игнорируется]
хи-хи, забавные дифирамбы тому самому Snowflake, который судя по всему все же проиграл первую битву Databricks. статья написана 6 месяцев назад, акции Snowflake за эти пол года обвалились в двое, клиенты стадами бегут к Databricks. чувак в статье ничего не написал про цену, если эти лапти и в самом деле "и дальше делать то, что мы делали " полагаю когда кончился срок скидок Snowflake разорил и их тоже.
что касается технической стороны, то мне все еще кажется Databricks сильно впереди. как я уже упоминал в ветке терадаты, у Databricks я могу написать тест который заполняет пару табличек и делает merge одной в другую, плюс проверит все ли норм вмерджилось. это я могу запустить локально, могу затолкать в gitlab pipeline. Snowflake же, это все же сервис. без него никуда. соответственно gitlab pipeline будет куда-то там коннектиться и на каждый чих кушать денег.

у нас пошел третий год попытки свалить с хадупа на Databricks, но чего-то у cloud команды все никак не движется навернуть все, что было на хадупе и светлое будущее в Databricks все откладывается.
...
Рейтинг: 0 / 0
Snowflake
    #850381
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
reload [игнорируется] 

Ну акции акциями, это дело такое, а у Snowflake 18% рынка против 9% у Databricks. Не знаю, где там бегущие на датабрикс стада, но ...
reload  14.08.2024, 22:31
[игнорируется]
что касается технической стороны, то мне все еще кажется Databricks сильно впереди. как я уже упоминал в ветке терадаты, у Databricks я могу написать тест который заполняет пару табличек и делает merge одной в другую, плюс проверит все ли норм вмерджилось. это я могу запустить локально
То же самое можно сделать в Snowflake с помощью Snowpark и запустить локально, хоть на вашем любимом Pandas, хоть на DataFrame-ах, а потом отправить на исполнение в облако.

https://docs.snowflake.com/en/developer-guide/snowpark/python/testing-locally
reload  14.08.2024, 22:31
[игнорируется]
у нас пошел третий год попытки свалить с хадупа на Databricks, но чего-то у cloud команды все никак не движется навернуть все, что было на хадупе и светлое будущее в Databricks все откладывается.
Сочувствую.
...
Рейтинг: 0 / 0
Snowflake
    #850398
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
А относительно того, что дешевле: вот интересное сравнение на Реддите:

FYI, I work for SF. Most of time, If it is too good to be true, it usually is. Databricks can basically come up with any price they want to present as they have an endless list of compute, instance & engine type combinations. They can make it look cheap but it doesn't mean it will do the job properly or w/ failures.

The good rule of thumb for DBX cost is to at least double up the DBU costs.

50% DBU + 30% cloud compute + 10% Storage + 10% Networking & Object store file access fees.

After that, if you want proper security, then you need privatelink between compute & storage and pay cloud provider per TB of data moment for every query that reads or writes data.

You have users querying data from onprem or out of region, then egress costs per each query based on size of resultset.

You need auditing on your lakehouse file access and compute nodes? you need to pay cloud provider to keep log files for file access for blob storage and compute nodes(ie. cloudntrail).

You need to analyze and audit all access logs in one place. You need to pay to ingest those log files in different formats to DBX so you can cross join it with DBX logs.

You need DR or redundancy. You call their services team or an SI to build you a custom one where you have to manage it yourself.

When you put all of this together with hard costs & soft costs(admin, maintenance & infosec times) as well as the added responsibility on your shoulders to make sure all of the data files are safe & secure where they cant be accessed by unwanted internal and external users, it suddenly doesn't look that cheap especially these tasks are usually handled by multiple people by multiple teams.

Snowflake, you don't have to deal with any of these things as they are all part of the cost. Software, compute, storage, redundancy over 3 AZs in each region, egress costs, security, encryption, auding is all handled by Snowflake where you are NOT responsible for it.

It is peace of mind you are getting on top of best in class performance and a ton features & functionality to cover all of your data engineering, DataScience, warehousing & lake needs, and much much more.

IMO, data engineers should only focus & be responsible for producing data for business. Any other activity & responsibility they have to own, will take away from their core function which then hurts the business in return.
...
Изменено: 14.08.2024, 23:15 - Кусь
Рейтинг: 0 / 0
Snowflake
    #850484
reload
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кусь  14.08.2024, 23:03
[игнорируется]
Не знаю, где там бегущие на датабрикс стада, но ...
так акции потому и упали, что был скандал и на Snowflake подали в суд когда крупные клиенты от них побежали. они раздавали гигантские скидки и раздували по сути липовый оборот. когда скидки кончились, клиенты офигели от счетов и побежали.
https://www.theregister.com/2024/03/05/class_action_snowflake/

правда с Databricks у нас сейчас будет та же история.
Кусь  14.08.2024, 23:03
[игнорируется]
То же самое можно сделать в Snowflake с помощью Snowpark и запустить локально, хоть на вашем любимом Pandas, хоть на DataFrame-ах, а потом отправить на исполнение в облако.

https://docs.snowflake.com/en/developer-guide/snowpark/python/testing-locally
пошел читать, там какое-то дурилово
docs 
[игнорируется]
Session.sql(...) is not supported in the local testing framework. Use Snowpark’s DataFrame APIs whenever possible, and in cases where you must use Session.sql(...), you can mock the tabular return value using Python’s unittest.mock.patch
SQL там не работает. я так понимаю они просто переименовали spark и вот что spark умеет делать с датафреймами, только то и работает локально. никаких таблиц локально он не создает.
...
Рейтинг: 0 / 0
Snowflake
    #850490
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
reload  14.08.2024, 23:56
[игнорируется]
правда с Databricks у нас сейчас будет та же история.
В случае с Databricks платишь и вендору, и облачному провайдеру, причём, за каждый чих. )))
reload  14.08.2024, 23:56
[игнорируется]
SQL там не работает.
Ну SnowPark -- это не про SQL, надо сказать.
reload  14.08.2024, 23:56
[игнорируется]
никаких таблиц локально он не создает.
Код: Python
1.
2.
3.
# Create local table
table = 'example'
session.create_dataframe([[1,2],[3,4]],['a','b']).write.save_as_table(table)
Меня другое напрягает: данные он в DataFrame загружает, похоже, только из csv. ((
...
Изменено: 15.08.2024, 00:14 - Кусь
Рейтинг: 0 / 0
Snowflake
    #850503
reload
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кусь  14.08.2024, 23:14
[игнорируется]
А относительно того, что дешевле: вот интересное сравнение на Реддите:
мне кажется у Snowflake проблемы начались когда всплыла вот эта история
https://x.com/GergelyOrosz/status/1697192807801184561

счета скаканули с $13M до $51M и этот Instacart побежал к датабрикс и теперь все рисуют датабрикс в лидерах. но мне кажется сейчас поперла мода на iceberg и все кинулись этот iceberg как сторидж интегрировать. если iceberg окажется дешевле на больших данных, Snowflake вполне сможет вернуть лидерство.
Кусь  14.08.2024, 23:56
[игнорируется]
В случае с Databricks платишь и вендору, и облачному провайдеру, причём, за каждый чих. )))
по мне так это лучше, чем просто вендору, который скрывает что ушло на его жадность, а что на потребляемые ресурсы. опять же в случае с dtabricks все прозрачно, есть миллион спецов, которые имплементируют лучшие мировые практики, можно нанять аудит. а что там и как намутил Snowflake никто не знает, есть ли там шифрование между компьют никто проверить не может. аудит к ним не пришлешь. причем у них совсем недавно был скандал с утечкой данных.
Кусь  14.08.2024, 23:56
[игнорируется]
Код: Python
1.
2.
3.
# Create local table
table = 'example'
session.create_dataframe([[1,2],[3,4]],['a','b']).write.save_as_table(table)
Меня другое напрягает: данные он в DataFrame загружает, похоже, только из csv. ((
When local testing is enabled, all tables created by DataFrame.save_as_table() are saved as temporary tables in memory and can be retrieved using Session.table(). You can use the supported DataFrame operations on the table as usual.

ну то есть только то, что spark умеет делать с датафрейм. ни MERGE, ни индекс оно не сделает, потому что локально ничего от Sowflake на самом деле нет. есть лишь переименнованный спарк.
но если подумать, на 2/3 тестов этого хватит.
...
Рейтинг: 0 / 0
Snowflake
    #850510
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
reload  15.08.2024, 00:36
[игнорируется]
счета скаканули с $13M до $51M и этот Instacart побежал к датабрикс и теперь все рисуют датабрикс в лидерах. но мне кажется сейчас поперла мода на iceberg и все кинулись этот iceberg как сторидж интегрировать. если iceberg окажется дешевле на больших данных, Snowflake вполне сможет вернуть лидерство.
iceberg у Snowflake уже есть, как альтернативный storage engine. Можно выбирать.
А у Databricks же свой Delta Lake, основанный на Parquet, вроде как.
reload  15.08.2024, 00:36
[игнорируется]
опять же в случае с dtabricks все прозрачно, есть миллион спецов, которые имплементируют лучшие мировые практики, можно нанять аудит. а что там и как намутил Snowflake никто не знает, есть ли там шифрование между компьют никто проверить не может. аудит к ним не пришлешь. причем у них совсем недавно был скандал с утечкой данных.
Ну так у любого облачного провайдера всё то же самое: где и как там хранятся ваши данные, не утекли ли они куда-то, как шифруется трафик. Вряд ли тот же AWS пустит к себе аудиторов, если только по решению суда.

У Snowflake вроде понятная система биллинга, можно даже примерно просчитать без оглядки на косты облачного провайдера (что, вообще говоря, плюс). Но ценник может быть высоким, да.
reload  15.08.2024, 00:36
[игнорируется]
но если подумать, на 2/3 тестов этого хватит.
Ну да, как-то так. Забабахать юнит-тесты вполне себе можно.
И у SF нет индексов. Да, вот так ))) А если нужно уже нагрузочное тестирование на больших объёмах, то ничего не поделаешь, придётся гонять кластер, что на самом деле правильно, хоть и придётся заплатить.
...
Рейтинг: 0 / 0
Snowflake
    #855739
reload
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кусь  15.08.2024, 00:52
[игнорируется]
iceberg у Snowflake уже есть, как альтернативный storage engine. Можно выбирать.
А у Databricks же свой Delta Lake, основанный на Parquet, вроде как.
да, у датабрикса то же самое давно. причем я смотрю датабрикс так напугался, что выкупил кантору, что разработала iceberg. SF пытался выкупить за $600М, databricks выкупил аж за $2 млрд.
Кусь  15.08.2024, 00:52
[игнорируется]
Ну так у любого облачного провайдера всё то же самое: где и как там хранятся ваши данные, не утекли ли они куда-то, как шифруется трафик. Вряд ли тот же AWS пустит к себе аудиторов, если только по решению суда.
ну у всяких AWS это все часть продукта, под который есть детальная документация, курсы, сертифицированные спецы. нам какой-то крупный банк пришлет аудиторов, которые проверят, как планируется хранить их данные. полагаю если бы выбрали SF то банк сразу бы отказал.
Кусь  15.08.2024, 00:52
[игнорируется]
У Snowflake вроде понятная система биллинга, можно даже примерно просчитать без оглядки на косты облачного провайдера (что, вообще говоря, плюс). Но ценник может быть высоким, да.
ixbt.com 
[игнорируется]
Однако Gartner заявила, что всё ещё получает отчёты о том, что пользователям сложно прогнозировать свои расходы Snowflake.

Аналитик отметил, что некоторые клиенты используют поставщиков финансовых операций (FinOps), чтобы помочь справиться с этой проблемой, и у Snowflake есть партнёры в этой области.

The Register получил неофициальные данные о проблемах с оценкой стоимости использования Snowflake. «Они не только не могут объяснить счёт за этот месяц, они понятия не имеют, каким будет счёт за следующий месяц», — сказал один консультант.
https://www.ixbt.com/news/2024/08/18/uorren-baffet-prodal-akcii-snowflake-na-summu-pochti-1-milliard-dollarov.html
...
Рейтинг: 0 / 0
Snowflake
    #855795
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
reload  19.08.2024, 21:29
[игнорируется]
да, у датабрикса то же самое давно. причем я смотрю датабрикс так напугался, что выкупил кантору, что разработала iceberg. SF пытался выкупить за $600М, databricks выкупил аж за $2 млрд.
Ахренеть. :)))
Но в выигрыше однозначно оказалась контора iceberg. Вообще красавчики.
reload  19.08.2024, 21:29
[игнорируется]
ну у всяких AWS это все часть продукта, под который есть детальная документация, курсы, сертифицированные спецы. нам какой-то крупный банк пришлет аудиторов, которые проверят, как планируется хранить их данные. полагаю если бы выбрали SF то банк сразу бы отказал.
Ой, ну не надо так идеализировать всяких AWS и сертифицированных аудиторов.
Вообще, здесь надо понимать, что отныне свои данные вы добровольно передаёте третьей стороне. Да, там есть шифрование, но SF так же базируется на том же AWS, например.
reload  19.08.2024, 21:29
[игнорируется]
ixbt.com 
[игнорируется]
The Register получил неофициальные данные о проблемах с оценкой стоимости использования Snowflake. «Они не только не могут объяснить счёт за этот месяц, они понятия не имеют, каким будет счёт за следующий месяц», — сказал один консультант.
Кстати, а у Databricks со счетами прозрачнее?
...
Рейтинг: 0 / 0
Snowflake
    #1105726
Кусь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модератор форума
Акции пошли вверх:
изображение_2024-11-06_103902363.png
...
Рейтинг: 0 / 0
14 сообщений из 14, страница 1 из 1
Форумы / NoSQL, Big Data [закрыт для гостей] / Snowflake
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]