|
Snowflake
|
|||
---|---|---|---|
#18+
Буду вести здесь дайджест новостей, событий и просто обсуждений по Snowflake. Уж больно активно эта платформа развивается. Если есть что сказать по сабжу, -- милости прошу. Позже планирую создать аналогичный раздел по Databricks. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2024, 01:38 |
|
Snowflake
|
|||
---|---|---|---|
#18+
Итак, как уже было отмечено в соседней теме про Teradata, в Snowflake можно деплоить полноценные жава программы (посредством .jar), разработанные локально c unit-тестами и т.п. Затем можно использовать эту функциональность для создания своих User Defined Functions (UDF), которые, в свою очередь, можно вызывать в Snowflake напрямую из SQL. Например, создадим простую UDF на базе jar-файла: Код: SQL 1. 2. 3. 4. 5.
Код: SQL 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2024, 17:25 |
|
Snowflake
|
|||
---|---|---|---|
#18+
Если по какой-либо причине вы не пишите на JVM-языках, а используете Python, то ваши кастомные Python пакеты пакуются в .zip и отправляются в Snowflake, где могут быть использованы либо при создании User Defined Functions/Procedures для вызова из SQL, либо импортрироваться в Snowpark код как обычно через import my_package. https://medium.com/snowflake/using-other-python-packages-in-snowpark-a6fd75e4b23a ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2024, 17:32 |
|
Snowflake
|
|||
---|---|---|---|
#18+
Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем сермяжные аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере кейсов Databricks и Snowflake. Продолжение здесь ... |
|||
:
Нравится:
Не нравится:
|
|||
10.04.2024, 01:00 |
|
Snowflake
|
|||
---|---|---|---|
#18+
хи-хи, забавные дифирамбы тому самому Snowflake, который судя по всему все же проиграл первую битву Databricks. статья написана 6 месяцев назад, акции Snowflake за эти пол года обвалились в двое, клиенты стадами бегут к Databricks. чувак в статье ничего не написал про цену, если эти лапти и в самом деле "и дальше делать то, что мы делали " полагаю когда кончился срок скидок Snowflake разорил и их тоже. что касается технической стороны, то мне все еще кажется Databricks сильно впереди. как я уже упоминал в ветке терадаты, у Databricks я могу написать тест который заполняет пару табличек и делает merge одной в другую, плюс проверит все ли норм вмерджилось. это я могу запустить локально, могу затолкать в gitlab pipeline. Snowflake же, это все же сервис. без него никуда. соответственно gitlab pipeline будет куда-то там коннектиться и на каждый чих кушать денег. у нас пошел третий год попытки свалить с хадупа на Databricks, но чего-то у cloud команды все никак не движется навернуть все, что было на хадупе и светлое будущее в Databricks все откладывается. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2024, 22:31 |
|
Snowflake
|
|||
---|---|---|---|
#18+
reload [игнорируется] Ну акции акциями, это дело такое, а у Snowflake 18% рынка против 9% у Databricks. Не знаю, где там бегущие на датабрикс стада, но ... что касается технической стороны, то мне все еще кажется Databricks сильно впереди. как я уже упоминал в ветке терадаты, у Databricks я могу написать тест который заполняет пару табличек и делает merge одной в другую, плюс проверит все ли норм вмерджилось. это я могу запустить локально https://docs.snowflake.com/en/developer-guide/snowpark/python/testing-locally у нас пошел третий год попытки свалить с хадупа на Databricks, но чего-то у cloud команды все никак не движется навернуть все, что было на хадупе и светлое будущее в Databricks все откладывается. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2024, 23:03 |
|
Snowflake
|
|||
---|---|---|---|
#18+
А относительно того, что дешевле: вот интересное сравнение на Реддите: FYI, I work for SF. Most of time, If it is too good to be true, it usually is. Databricks can basically come up with any price they want to present as they have an endless list of compute, instance & engine type combinations. They can make it look cheap but it doesn't mean it will do the job properly or w/ failures. The good rule of thumb for DBX cost is to at least double up the DBU costs. 50% DBU + 30% cloud compute + 10% Storage + 10% Networking & Object store file access fees. After that, if you want proper security, then you need privatelink between compute & storage and pay cloud provider per TB of data moment for every query that reads or writes data. You have users querying data from onprem or out of region, then egress costs per each query based on size of resultset. You need auditing on your lakehouse file access and compute nodes? you need to pay cloud provider to keep log files for file access for blob storage and compute nodes(ie. cloudntrail). You need to analyze and audit all access logs in one place. You need to pay to ingest those log files in different formats to DBX so you can cross join it with DBX logs. You need DR or redundancy. You call their services team or an SI to build you a custom one where you have to manage it yourself. When you put all of this together with hard costs & soft costs(admin, maintenance & infosec times) as well as the added responsibility on your shoulders to make sure all of the data files are safe & secure where they cant be accessed by unwanted internal and external users, it suddenly doesn't look that cheap especially these tasks are usually handled by multiple people by multiple teams. Snowflake, you don't have to deal with any of these things as they are all part of the cost. Software, compute, storage, redundancy over 3 AZs in each region, egress costs, security, encryption, auding is all handled by Snowflake where you are NOT responsible for it. It is peace of mind you are getting on top of best in class performance and a ton features & functionality to cover all of your data engineering, DataScience, warehousing & lake needs, and much much more. IMO, data engineers should only focus & be responsible for producing data for business. Any other activity & responsibility they have to own, will take away from their core function which then hurts the business in return. ... |
|||
:
Изменено: 14.08.2024, 23:15 - Кусь
Нравится:
Не нравится:
|
|||
14.08.2024, 23:14 |
|
Snowflake
|
|||
---|---|---|---|
#18+
Не знаю, где там бегущие на датабрикс стада, но ... https://www.theregister.com/2024/03/05/class_action_snowflake/ правда с Databricks у нас сейчас будет та же история. То же самое можно сделать в Snowflake с помощью Snowpark и запустить локально, хоть на вашем любимом Pandas, хоть на DataFrame-ах, а потом отправить на исполнение в облако. https://docs.snowflake.com/en/developer-guide/snowpark/python/testing-locally docs [игнорируется] Session.sql(...) is not supported in the local testing framework. Use Snowpark’s DataFrame APIs whenever possible, and in cases where you must use Session.sql(...), you can mock the tabular return value using Python’s unittest.mock.patch ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2024, 23:56 |
|
Snowflake
|
|||
---|---|---|---|
#18+
правда с Databricks у нас сейчас будет та же история. SQL там не работает. никаких таблиц локально он не создает. Код: Python 1. 2. 3.
... |
|||
:
Изменено: 15.08.2024, 00:14 - Кусь
Нравится:
Не нравится:
|
|||
15.08.2024, 00:13 |
|
Snowflake
|
|||
---|---|---|---|
#18+
А относительно того, что дешевле: вот интересное сравнение на Реддите: https://x.com/GergelyOrosz/status/1697192807801184561 счета скаканули с $13M до $51M и этот Instacart побежал к датабрикс и теперь все рисуют датабрикс в лидерах. но мне кажется сейчас поперла мода на iceberg и все кинулись этот iceberg как сторидж интегрировать. если iceberg окажется дешевле на больших данных, Snowflake вполне сможет вернуть лидерство. В случае с Databricks платишь и вендору, и облачному провайдеру, причём, за каждый чих. ))) Код: Python 1. 2. 3.
ну то есть только то, что spark умеет делать с датафрейм. ни MERGE, ни индекс оно не сделает, потому что локально ничего от Sowflake на самом деле нет. есть лишь переименнованный спарк. но если подумать, на 2/3 тестов этого хватит. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2024, 00:36 |
|
Snowflake
|
|||
---|---|---|---|
#18+
счета скаканули с $13M до $51M и этот Instacart побежал к датабрикс и теперь все рисуют датабрикс в лидерах. но мне кажется сейчас поперла мода на iceberg и все кинулись этот iceberg как сторидж интегрировать. если iceberg окажется дешевле на больших данных, Snowflake вполне сможет вернуть лидерство. А у Databricks же свой Delta Lake, основанный на Parquet, вроде как. опять же в случае с dtabricks все прозрачно, есть миллион спецов, которые имплементируют лучшие мировые практики, можно нанять аудит. а что там и как намутил Snowflake никто не знает, есть ли там шифрование между компьют никто проверить не может. аудит к ним не пришлешь. причем у них совсем недавно был скандал с утечкой данных. У Snowflake вроде понятная система биллинга, можно даже примерно просчитать без оглядки на косты облачного провайдера (что, вообще говоря, плюс). Но ценник может быть высоким, да. но если подумать, на 2/3 тестов этого хватит. И у SF нет индексов. Да, вот так ))) А если нужно уже нагрузочное тестирование на больших объёмах, то ничего не поделаешь, придётся гонять кластер, что на самом деле правильно, хоть и придётся заплатить. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2024, 00:52 |
|
Snowflake
|
|||
---|---|---|---|
#18+
iceberg у Snowflake уже есть, как альтернативный storage engine. Можно выбирать. А у Databricks же свой Delta Lake, основанный на Parquet, вроде как. Ну так у любого облачного провайдера всё то же самое: где и как там хранятся ваши данные, не утекли ли они куда-то, как шифруется трафик. Вряд ли тот же AWS пустит к себе аудиторов, если только по решению суда. У Snowflake вроде понятная система биллинга, можно даже примерно просчитать без оглядки на косты облачного провайдера (что, вообще говоря, плюс). Но ценник может быть высоким, да. ixbt.com [игнорируется] Однако Gartner заявила, что всё ещё получает отчёты о том, что пользователям сложно прогнозировать свои расходы Snowflake. Аналитик отметил, что некоторые клиенты используют поставщиков финансовых операций (FinOps), чтобы помочь справиться с этой проблемой, и у Snowflake есть партнёры в этой области. The Register получил неофициальные данные о проблемах с оценкой стоимости использования Snowflake. «Они не только не могут объяснить счёт за этот месяц, они понятия не имеют, каким будет счёт за следующий месяц», — сказал один консультант. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2024, 21:29 |
|
Snowflake
|
|||
---|---|---|---|
#18+
да, у датабрикса то же самое давно. причем я смотрю датабрикс так напугался, что выкупил кантору, что разработала iceberg. SF пытался выкупить за $600М, databricks выкупил аж за $2 млрд. Но в выигрыше однозначно оказалась контора iceberg. Вообще красавчики. ну у всяких AWS это все часть продукта, под который есть детальная документация, курсы, сертифицированные спецы. нам какой-то крупный банк пришлет аудиторов, которые проверят, как планируется хранить их данные. полагаю если бы выбрали SF то банк сразу бы отказал. Вообще, здесь надо понимать, что отныне свои данные вы добровольно передаёте третьей стороне. Да, там есть шифрование, но SF так же базируется на том же AWS, например. ixbt.com [игнорируется] The Register получил неофициальные данные о проблемах с оценкой стоимости использования Snowflake. «Они не только не могут объяснить счёт за этот месяц, они понятия не имеют, каким будет счёт за следующий месяц», — сказал один консультант. ... |
|||
:
Нравится:
Не нравится:
|
|||
19.08.2024, 23:07 |
|
Snowflake
#1105726
Ссылка:
Ссылка на сообщение:
Ссылка с названием темы:
Ссылка на профиль пользователя:
Ссылка на вложение:
|
||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
#18+
... |
||||||||||||||||
:
Нравится:
Не нравится:
|
||||||||||||||||
06.11.2024, 12:39 |
|
|
start [/forum/topic.php?fid=31&tid=16068]: |
0ms |
get settings: |
32ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
46ms |
get topic data: |
13ms |
get forum data: |
4ms |
get page messages: |
872ms |
get tp. blocked users: |
2ms |
others: | 14ms |
total: | 1004ms |
0 / 0 |