求个台式机电脑配置,跑大数据用
2068 28
[1 楼] haiyangsea [陈年泡菜]
22-4-23 00:28
每天数据量不低于20G,换算成行数大1.5亿行左右,中期规划大概要每天跑50G数据。
就单机,云什么的不考虑,也不允许装服务器的机架,装了也不会用。
主板设想用服务器的。但是用什么主板好?
内存多大?128G够用吗?还是必须256?什么主板能支持这么大内存?
CUP哪款好?单U还是双U?
硬盘企业级的还是家用的?其实数据跑完了就回存,再调的可能性不大。
GPU?有什么GPU对大数据计算有优化?不晓得。
SSD倒是有现成的,4T够用不?

总之,大家谈吧,我也好学习学习。
[29 楼] haiyangsea [陈年泡菜]
22-4-25 12:23
闲聊状态 发表于 2022-04-25 10:23
集采个龙芯服务器也不行吗 天津海光的也行啊

个人电脑其实可以凑合下

我的  thinkbook 14 I5 跑postgre...

安全很重要,我这全内网,过几天上审计设备,外面也要加门禁,内部使用问题不大。
速度再说吧,能让这个东西稳定用起来已经不错了。
发布自 色影无忌小程序
[28 楼] qingcai [资深泡菜]
22-4-25 10:31
你有多少数据?
[27 楼] 闲聊状态 [泡菜]
22-4-25 10:23
haiyangsea 发表于 2022-4-25 09:10
主要是我这数据太好玩了,各种上帝视角,不开发可惜了。
我就为自己折腾吧,能把这事办成了,也算没有碌碌无为。

集采个龙芯服务器也不行吗 天津海光的也行啊

个人电脑其实可以凑合下

我的  thinkbook 14 I5 跑postgresql 做50W数据的三表关联 无索引 也就是分钟级
这些开源的 一个SQL就走一个线程 pg12 还有JIT优化 也还是那样

要是没钱投资也就是玩玩了  少弄点玩玩就行了

数据多了也是个麻烦  且不说完整性 安全性就很麻烦

[26 楼] haiyangsea [陈年泡菜]
22-4-25 09:10
Sunnic 发表于 2022-4-25 07:18
那就不弄了。。。出力不讨好


主要是我这数据太好玩了,各种上帝视角,不开发可惜了。
我就为自己折腾吧,能把这事办成了,也算没有碌碌无为。
[25 楼] haiyangsea [陈年泡菜]
22-4-25 09:08
闲聊状态 发表于 2022-4-24 16:33
28万 是可以

可一分没有 那就别折腾了啊

申请个办公电脑 加俩内存 凑合用吧 有啥用啥

别说你申请的电脑还是龙芯的 虽然那个也能用的


我已经把牛吹出去了,在下已经是战略数据平台的负责人,可惜旗下只有一台办公电脑和巨量的数据......
申请办公电脑就不要想了,除非去抢劫,再说发的电脑还真是龙芯的......
[24 楼] Sunnic [泡菜]
22-4-25 07:18
haiyangsea 发表于 2022-4-24 14:31
报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。
那就不弄了。。。出力不讨好
[23 楼] 闲聊状态 [泡菜]
22-4-24 16:33
haiyangsea 发表于 2022-4-24 14:31
报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。

28万 是可以

可一分没有 那就别折腾了啊

申请个办公电脑 加俩内存 凑合用吧 有啥用啥

别说你申请的电脑还是龙芯的 虽然那个也能用的
[22 楼] haiyangsea [陈年泡菜]
22-4-24 14:31
闲聊状态 发表于 2022-04-24 09:28
万八千块钱 要是不去淘洋垃圾基本上有点难

CPU 主板 内存 万儿八千差不离了(64G 128G ECC )

再加上SSD ...

报的预算是28万,硬件准备白嫖兄弟单位,软件找了个熟人团队,从底层的数据存储到上层的应用都包了,指标体系我都做好了,结果第一句话就是一分没有。
发布自 色影无忌小程序
[21 楼] 闲聊状态 [泡菜]
22-4-24 09:28
haiyangsea 发表于 2022-4-23 23:31
我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。
其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。

万八千块钱 要是不去淘洋垃圾基本上有点难

CPU+主板+内存 万儿八千差不离了(64G 128G ECC )

再加上SSD 就算是消费盘1T的京造9 都1000左右了

另外这些东西还是建议上Linux跑 至少oracle postgresql都是 linux下性能好些,Windows可以往后站。
mysql?我们不用这玩意,用也是在linux下装的

如果不顾数据安全性可以跑单盘 如果有要求,硬件 raid 1是必须的,我们的数据库服务器是  raid 1+热备 三块当一块用
而上硬件raid卡了 自然也就是服务器最安逸了

所以 我觉得把预算提高到5-10W比较好 本帖最后由 闲聊状态 于 2022-4-24 09:29 编辑
[20 楼] Trompette [泡菜]
22-4-24 08:55
haiyangsea 发表于 2022-4-23 23:31
我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。
其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。


楼主的要求看上去就是 BAT 面试题的水平了

查询算法本身是最重要的。综合采用排序+重归并+再排序+再归并,高主频 + 16G 内存有可能就够了
单核速度最快资源占用最少的就是 sqlite,多核 CPU 跑 mysql 需要算法和 IO 支持才会有明显效果

用上好的算法后,再看硬件的瓶颈在哪里吧

如果不是量化交易这种不便透露的信息,楼主不妨比划大家看看
[19 楼] 闲聊状态 [泡菜]
22-4-24 08:53
arondes 发表于 2022-4-24 00:19
这样的话,GPU应该是没用的。MySQL的查询优化,公司里的架构师也一样每天要面对这些难题。我听同事讲现在有部分场景换了ClickHouse,速度提升很大。


巨大数据量 还得Hadoop 不过1.5亿行 不算巨大。。。。

除了mysql 可以试试postgresql
其实 最好是上Oracle。。。

mysql的大数据量操作貌似一般

如果是SQL类,显卡基本上没用 但 postgresql有个GPU加速插件。但是 我在我的破烂电脑上试的加速效果还不如CPU,而且结果集明显受显存大小制约

以下是阿里云 postgresql  GPU加速 云数据库的广告:
经对比测试,以遥感影像三次卷积重采样纯算法加速为例,GPU并行计算较CPU平均提升50倍左右,且随数据量越大、计算越复杂,提升效果越明显。从全链路角度,当数据存储在SSD云盘时,遥感影像入库(含索引创建)GPU较CPU快9-15倍;当数据存储在OSS(Object Storage Service,对象存储服务)时,数据入库全流程GPU较CPU加速4-7倍。


数据库就是大内存 高速SSD 线程么 人多的时候多越多越好,要是人有限,我觉得还是有个高主频更重要。另外 服务器CPU的高三缓是很有用的 本帖最后由 闲聊状态 于 2022-4-24 08:59 编辑
[18 楼] arondes [陈年泡菜]
22-4-24 00:19
haiyangsea 发表于 2022-4-23 23:31
我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。
其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。


这样的话,GPU应该是没用的。MySQL的查询优化,公司里的架构师也一样每天要面对这些难题。我听同事讲现在有部分场景换了ClickHouse,速度提升很大。
[17 楼] haiyangsea [陈年泡菜]
22-4-23 23:31
arondes 发表于 2022-4-23 01:10
intel的z690,amd的x570主板最大支持128GB内存
这是民用级别最常见的规格了,再大的内存建议就上工作站/服务器了
双CPU也是需要专门的服务器主板支持
至于gpu,如果你用的软件有优化那是可以的,否则是用不到的
多买几个硬盘备份数据是必要的
处理数据,主要是看你怎么写程序,或者说用的是什么工具;不同的写法带来的差距很大,20-50G,常规的硬件个人感觉都够用
个人感觉你的需求,sqlite+python就足够了


我这便是用的是MYSQL+JAVA,这都是我自己琢磨出来的,没人可以请教,所以效率非常低。
其实活儿很简单,就是过来的源数据进行统计,但是数据要排序,还有一些数据要做关联查询,都是属于低效率的工作,我也问过所谓的专家,也是不太好办。总之,我就想花个万八千块钱把这事儿办了,然后才有下一步的可能性。
[16 楼] haiyangsea [陈年泡菜]
22-4-23 23:23
Trompette 发表于 2022-4-23 17:25
不知道楼主的单机大数据是什么,感觉一个靠谱的算法岗程序员,能顶100台电脑


只有我一人,不懂算法,也不懂优化,估计也很难学会。
请人也是不可能的,即便可能也花不起这个钱,与其在智力上突破,还不如买硬件简单。
[15 楼] haiyangsea [陈年泡菜]
22-4-23 23:20
雨中赏花1 发表于 2022-4-23 03:56
俺玩游戏的机器(应该快被淘汰了),偶尔跑点大数据,很轻松。

asus ws x299 pro
10980xe
256G 4133 ddr4 ram
hx1000
2080ti X3 sli
970 pro 1T C盘
P3520 2T 大数据存储
P3520 1.2T 个人文件和处理后的压缩照片
WD 2T 黄盘 X2 重要文件和照片存储。


这个配置还是挺吸引我的,要是能买你二手就更好了
[14 楼] camson [禁言中]
22-4-23 17:54
看来是编程方面,不是数据传输。
[13 楼] Trompette [泡菜]
22-4-23 17:25
不知道楼主的单机大数据是什么,感觉一个靠谱的算法岗程序员,能顶100台电脑

[12 楼] camson [禁言中]
22-4-23 16:21
跑大数据是什么意思?是仅传送数据?那20G,50G也不算大呀。我普通低配置弱性能的老的家用台式机与笔记本之间传个10G数据,试验过,无线传,速度还可以(个人标准)。
[11 楼] 风消云变 [泡菜]
22-4-23 15:36
闲聊状态 发表于 2022-04-23 09:15
县城撕裂者也出来了 就是还没见有卖的。。。
5995WX

那得联想了,目前只有联想的有。
发布自 安卓客户端
[10 楼] E3U3 [泡菜]
22-4-23 13:21
那取决于数据参与了什么计算操作。
是直接用支持并行的框架,还是写单核的程序然后并行部署,还是说得经过显卡计算?
想少花钱,我感觉卖双U主板,用洋垃圾服务器cpu把核数和线程数堆上去。高主频的家用游戏cpu可能不如这种策略。
[9 楼] luckcat [资深泡菜]
22-4-23 11:25
直接上DELL T640塔式服务器,最大可以上3T内存
[8 楼] lzc463 [资深泡菜]
22-4-23 10:44
只是说了数据量,没说要做什么处理
[7 楼] 闲聊状态 [泡菜]
22-4-23 09:15
县城撕裂者也出来了 就是还没见有卖的。。。
5995WX
[6 楼] 闲聊状态 [泡菜]
22-4-23 08:36
服务器也有塔式的

买DELL塔式就是了

主要是 志强+ECC+RAID
要是不打算志强 EPYC+ECC+RAID

两颗肯定比一颗强

既然是叫跑 那就的考虑长期稳定性 服务器主板+CPU 自然是最优选

另外 AMD 非EPYC CPU 非APU 是支持ECC内存的,前提是主板也支持的情况下。如果就是打算自己攒,就是不要服务器 可以考虑下,但是要看好主板的介绍
本帖最后由 闲聊状态 于 2022-4-23 08:41 编辑
[5 楼] 雨中赏花1 [资深泡菜]
22-4-23 03:56
俺玩游戏的机器(应该快被淘汰了),偶尔跑点大数据,很轻松。

asus ws x299 pro
10980xe
256G 4133 ddr4 ram
hx1000
2080ti X3 sli
970 pro 1T C盘
P3520 2T 大数据存储
P3520 1.2T 个人文件和处理后的压缩照片
WD 2T 黄盘 X2 重要文件和照片存储。
[4 楼] arondes [陈年泡菜]
22-4-23 01:10
intel的z690,amd的x570主板最大支持128GB内存
这是民用级别最常见的规格了,再大的内存建议就上工作站/服务器了
双CPU也是需要专门的服务器主板支持
至于gpu,如果你用的软件有优化那是可以的,否则是用不到的
多买几个硬盘备份数据是必要的
处理数据,主要是看你怎么写程序,或者说用的是什么工具;不同的写法带来的差距很大,20-50G,常规的硬件个人感觉都够用
个人感觉你的需求,sqlite+python就足够了
[3 楼] 孔雀 [老坛泡菜]
22-4-23 00:43
内存如果不用spark之类内存计算以及内存数据库,64G就够(我们用的机架服务器也很少超过这个配置)。

硬盘必须SSD,机械硬盘没必要,冷数据要存直接mount NFS甚至block storage好了,机械硬盘甚至不比NFS好。

C买你买得起的线程数最高的。线程数比主频优先。

GPU看你用什么计算引擎了。自己搞CUDA的话可以上。

本帖最后由 孔雀 于 2022-4-23 00:43 编辑
[2 楼] yifanker [资深泡菜]
22-4-23 00:38
不推荐用服务器主板,支持双路的配两个志强U太麻烦,就用主流的12代i9单U吧,不用了也极好出
i9-12900K      [16C24T]
华硕Z690-A GAMING WIFI D4吹雪主板
D4 3600+ 32GB*4    [堆满128GB最大容量]
固态推荐三星980PRO   容量丰俭由人
显卡暂时不知道能否给运算加速,搁置待议,先用核显
750W电源差不多够了
机械硬盘必须用企业级的,容量推荐16TB,价格约2000:希捷银河缓存256MB,噪音略大,五年质保;东芝缓存512MB,噪音小,三年质保;西数缓存512MB,五年质保。

期待谁出一个最符合LZ要求的配置
PS:前排留名,另广告位招租 本帖最后由 yifanker 于 2022-4-23 00:54 编辑