[1 楼] haiyangsea
[陈年泡菜]
22-4-23 00:28
每天数据量不低于20G,换算成行数大1.5亿行左右,中期规划大概要每天跑50G数据。 就单机,云什么的不考虑,也不允许装服务器的机架,装了也不会用。 主板设想用服务器的。但是用什么主板好? 内存多大?128G够用吗?还是必须256?什么主板能支持这么大内存? CUP哪款好?单U还是双U? 硬盘企业级的还是家用的?其实数据跑完了就回存,再调的可能性不大。 GPU?有什么GPU对大数据计算有优化?不晓得。 SSD倒是有现成的,4T够用不?
总之,大家谈吧,我也好学习学习。
|
[29 楼] haiyangsea
[陈年泡菜]
22-4-25 12:23
闲聊状态 发表于 2022-04-25 10:23集采个龙芯服务器也不行吗 天津海光的也行啊
个人电脑其实可以凑合下
我的 thinkbook 14 I5 跑postgre... 安全很重要,我这全内网,过几天上审计设备,外面也要加门禁,内部使用问题不大。 速度再说吧,能让这个东西稳定用起来已经不错了。 发布自 色影无忌小程序
|
[28 楼] qingcai
[资深泡菜]
22-4-25 10:31
|
[27 楼] 闲聊状态
[泡菜]
22-4-25 10:23
haiyangsea 发表于 2022-4-25 09:10  主要是我这数据太好玩了,各种上帝视角,不开发可惜了。 我就为自己折腾吧,能把这事办成了,也算没有碌碌无为。 集采个龙芯服务器也不行吗 天津海光的也行啊 个人电脑其实可以凑合下 我的 thinkbook 14 I5 跑postgresql 做50W数据的三表关联 无索引 也就是分钟级 这些开源的 一个SQL就走一个线程 pg12 还有JIT优化 也还是那样 要是没钱投资也就是玩玩了 少弄点玩玩就行了 数据多了也是个麻烦 且不说完整性 安全性就很麻烦
|
[26 楼] haiyangsea
[陈年泡菜]
22-4-25 09:10
Sunnic 发表于 2022-4-25 07:18  那就不弄了。。。出力不讨好 主要是我这数据太好玩了,各种上帝视角,不开发可惜了。 我就为自己折腾吧,能把这事办成了,也算没有碌碌无为。
|
[25 楼] haiyangsea
[陈年泡菜]
22-4-25 09:08
闲聊状态 发表于 2022-4-24 16:33  28万 是可以
可一分没有 那就别折腾了啊
申请个办公电脑 加俩内存 凑合用吧 有啥用啥
别说你申请的电脑还是龙芯的 虽然那个也能用的 我已经把牛吹出去了,在下已经是战略数据平台的负责人,可惜旗下只有一台办公电脑和巨量的数据...... 申请办公电脑就不要想了,除非去抢劫,再说发的电脑还真是龙芯的......
|
[24 楼] Sunnic
[泡菜]
22-4-25 07:18
haiyangsea 发表于 2022-4-24 14:31  报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。 那就不弄了。。。出力不讨好
|
[23 楼] 闲聊状态
[泡菜]
22-4-24 16:33
haiyangsea 发表于 2022-4-24 14:31  报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。 28万 是可以 可一分没有 那就别折腾了啊 申请个办公电脑 加俩内存 凑合用吧 有啥用啥 别说你申请的电脑还是龙芯的 虽然那个也能用的
|
[22 楼] haiyangsea
[陈年泡菜]
22-4-24 14:31
闲聊状态 发表于 2022-04-24 09:28万八千块钱 要是不去淘洋垃圾基本上有点难
CPU 主板 内存 万儿八千差不离了(64G 128G ECC )
再加上SSD ... 报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。 发布自 色影无忌小程序
|
[21 楼] 闲聊状态
[泡菜]
22-4-24 09:28
haiyangsea 发表于 2022-4-23 23:31  我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。 其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。 万八千块钱 要是不去淘洋垃圾基本上有点难 CPU+主板+内存 万儿八千差不离了(64G 128G ECC ) 再加上SSD 就算是消费盘1T的京造9 都1000左右了 另外这些东西还是建议上Linux跑 至少oracle postgresql都是 linux下性能好些,Windows可以往后站。 mysql?我们不用这玩意,用也是在linux下装的 如果不顾数据安全性可以跑单盘 如果有要求,硬件 raid 1是必须的,我们的数据库服务器是 raid 1+热备 三块当一块用 而上硬件raid卡了 自然也就是服务器最安逸了 所以 我觉得把预算提高到5-10W比较好 本帖最后由 闲聊状态 于 2022-4-24 09:29 编辑
|
[20 楼] Trompette
[泡菜]
22-4-24 08:55
haiyangsea 发表于 2022-4-23 23:31  我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。 其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。 楼主的要求看上去就是 BAT 面试题的水平了 查询算法本身是最重要的。综合采用排序+重归并+再排序+再归并,高主频 + 16G 内存有可能就够了 单核速度最快资源占用最少的就是 sqlite,多核 CPU 跑 mysql 需要算法和 IO 支持才会有明显效果 用上好的算法后,再看硬件的瓶颈在哪里吧 如果不是量化交易这种不便透露的信息,楼主不妨比划大家看看
|
[19 楼] 闲聊状态
[泡菜]
22-4-24 08:53
arondes 发表于 2022-4-24 00:19  这样的话,GPU应该是没用的。MySQL的查询优化,公司里的架构师也一样每天要面对这些难题。我听同事讲现在有部分场景换了ClickHouse,速度提升很大。 巨大数据量 还得Hadoop 不过1.5亿行 不算巨大。。。。 除了mysql 可以试试postgresql 其实 最好是上Oracle。。。 mysql的大数据量操作貌似一般 如果是SQL类,显卡基本上没用 但 postgresql有个GPU加速插件。但是 我在我的破烂电脑上试的加速效果还不如CPU,而且结果集明显受显存大小制约 以下是阿里云 postgresql GPU加速 云数据库的广告: 经对比测试,以遥感影像三次卷积重采样纯算法加速为例,GPU并行计算较CPU平均提升50倍左右,且随数据量越大、计算越复杂,提升效果越明显。从全链路角度,当数据存储在SSD云盘时,遥感影像入库(含索引创建)GPU较CPU快9-15倍;当数据存储在OSS(Object Storage Service,对象存储服务)时,数据入库全流程GPU较CPU加速4-7倍。 数据库就是大内存 高速SSD 线程么 人多的时候多越多越好,要是人有限,我觉得还是有个高主频更重要。另外 服务器CPU的高三缓是很有用的 本帖最后由 闲聊状态 于 2022-4-24 08:59 编辑
|
[18 楼] arondes
[陈年泡菜]
22-4-24 00:19
haiyangsea 发表于 2022-4-23 23:31  我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。 其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。 这样的话,GPU应该是没用的。MySQL的查询优化,公司里的架构师也一样每天要面对这些难题。我听同事讲现在有部分场景换了ClickHouse,速度提升很大。
|
[17 楼] haiyangsea
[陈年泡菜]
22-4-23 23:31
arondes 发表于 2022-4-23 01:10  intel的z690,amd的x570主板最大支持128GB内存 这是民用级别最常见的规格了,再大的内存建议就上工作站/服务器了 双CPU也是需要专门的服务器主板支持 至于gpu,如果你用的软件有优化那是可以的,否则是用不到的 多买几个硬盘备份数据是必要的 处理数据,主要是看你怎么写程序,或者说用的是什么工具;不同的写法带来的差距很大,20-50G,常规的硬件个人感觉都够用 个人感觉你的需求,sqlite+python就足够了 我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。 其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。
|
[16 楼] haiyangsea
[陈年泡菜]
22-4-23 23:23
Trompette 发表于 2022-4-23 17:25  不知道楼主的单机大数据是什么,感觉一个靠谱的算法岗程序员,能顶100台电脑 只有我一人,不懂算法,也不懂优化,估计也很难学会。 请人也是不可能的,即便可能也花不起这个钱,与其在智力上突破,还不如买硬件简单。
|
[15 楼] haiyangsea
[陈年泡菜]
22-4-23 23:20
雨中赏花1 发表于 2022-4-23 03:56  俺玩游戏的机器(应该快被淘汰了),偶尔跑点大数据,很轻松。
asus ws x299 pro 10980xe 256G 4133 ddr4 ram hx1000 2080ti X3 sli 970 pro 1T C盘 P3520 2T 大数据存储 P3520 1.2T 个人文件和处理后的压缩照片 WD 2T 黄盘 X2 重要文件和照片存储。 这个配置还是挺吸引我的,要是能买你二手就更好了
|
[14 楼] camson
[禁言中]
22-4-23 17:54
|
[13 楼] Trompette
[泡菜]
22-4-23 17:25
不知道楼主的单机大数据是什么,感觉一个靠谱的算法岗程序员,能顶100台电脑
|
[12 楼] camson
[禁言中]
22-4-23 16:21
跑大数据是什么意思?是仅传送数据?那20G,50G也不算大呀。我普通低配置弱性能的老的家用台式机与笔记本之间传个10G数据,试验过,无线传,速度还可以(个人标准)。
|
[11 楼] 风消云变
[泡菜]
22-4-23 15:36
闲聊状态 发表于 2022-04-23 09:15县城撕裂者也出来了 就是还没见有卖的。。。 5995WX 那得联想了,目前只有联想的有。 发布自 安卓客户端
|
[10 楼] E3U3
[泡菜]
22-4-23 13:21
那取决于数据参与了什么计算操作。 是直接用支持并行的框架,还是写单核的程序然后并行部署,还是说得经过显卡计算? 想少花钱,我感觉卖双U主板,用洋垃圾服务器cpu把核数和线程数堆上去。高主频的家用游戏cpu可能不如这种策略。
|
[9 楼] luckcat
[资深泡菜]
22-4-23 11:25
直接上DELL T640塔式服务器,最大可以上3T内存
|
[8 楼] lzc463
[资深泡菜]
22-4-23 10:44
|
[7 楼] 闲聊状态
[泡菜]
22-4-23 09:15
县城撕裂者也出来了 就是还没见有卖的。。。 5995WX
|
[6 楼] 闲聊状态
[泡菜]
22-4-23 08:36
服务器也有塔式的
买DELL塔式就是了
主要是 志强+ECC+RAID 要是不打算志强 EPYC+ECC+RAID
两颗肯定比一颗强
既然是叫跑 那就的考虑长期稳定性 服务器主板+CPU 自然是最优选
另外 AMD 非EPYC CPU 非APU 是支持ECC内存的,前提是主板也支持的情况下。如果就是打算自己攒,就是不要服务器 可以考虑下,但是要看好主板的介绍 本帖最后由 闲聊状态 于 2022-4-23 08:41 编辑
|
[5 楼] 雨中赏花1
[资深泡菜]
22-4-23 03:56
俺玩游戏的机器(应该快被淘汰了),偶尔跑点大数据,很轻松。
asus ws x299 pro 10980xe 256G 4133 ddr4 ram hx1000 2080ti X3 sli 970 pro 1T C盘 P3520 2T 大数据存储 P3520 1.2T 个人文件和处理后的压缩照片 WD 2T 黄盘 X2 重要文件和照片存储。
|
[4 楼] arondes
[陈年泡菜]
22-4-23 01:10
intel的z690,amd的x570主板最大支持128GB内存 这是民用级别最常见的规格了,再大的内存建议就上工作站/服务器了 双CPU也是需要专门的服务器主板支持 至于gpu,如果你用的软件有优化那是可以的,否则是用不到的 多买几个硬盘备份数据是必要的 处理数据,主要是看你怎么写程序,或者说用的是什么工具;不同的写法带来的差距很大,20-50G,常规的硬件个人感觉都够用 个人感觉你的需求,sqlite+python就足够了
|
[3 楼] 孔雀
[老坛泡菜]
22-4-23 00:43
内存如果不用spark之类内存计算以及内存数据库,64G就够(我们用的机架服务器也很少超过这个配置)。
硬盘必须SSD,机械硬盘没必要,冷数据要存直接mount NFS甚至block storage好了,机械硬盘甚至不比NFS好。
C买你买得起的线程数最高的。线程数比主频优先。
GPU看你用什么计算引擎了。自己搞CUDA的话可以上。
本帖最后由 孔雀 于 2022-4-23 00:43 编辑
|
[2 楼] yifanker
[资深泡菜]
22-4-23 00:38
不推荐用服务器主板,支持双路的配两个志强U太麻烦,就用主流的12代i9单U吧,不用了也极好出 i9-12900K [16C24T] 华硕Z690-A GAMING WIFI D4吹雪主板 D4 3600+ 32GB*4 [堆满128GB最大容量] 固态推荐三星980PRO 容量丰俭由人 显卡暂时不知道能否给运算加速,搁置待议,先用核显 750W电源差不多够了 机械硬盘必须用企业级的,容量推荐16TB,价格约2000:希捷银河缓存256MB,噪音略大,五年质保;东芝缓存512MB,噪音小,三年质保;西数缓存512MB,五年质保。
期待谁出一个最符合LZ要求的配置 PS:前排留名,另广告位招租 本帖最后由 yifanker 于 2022-4-23 00:54 编辑
|