Python爱好者俱乐部
18247
542
[454 楼] 大信
[泡菜]
22-5-20 14:18
benniewang 发表于 2022-5-19 21:27 比如二维表格: name email 张三 [email][email protected][/email] 李四 [email][email protected][/email] 王五 [email][email protected][/email] 按照你的list构造方法,实际上把列变成了行? 迭代时循环可以用序号1-N,不过这也是个不错的方法。 ![]() |
[453 楼] 闲聊状态
[泡菜]
22-5-20 08:45
与谁比呢? Java ResultSet ? 体积 ResultSet 完胜 易用性 pandas read_sql to_sql完胜 速度? 其实差不多的,这语言是有差异,可数据库更慢。 就我们的库 要是人写好了sql prepareStatement 往里灌 java比 指定对了类型的pandas 略快1000W行的数据 能快个半分钟以内吧 (刨除数据库影响) 我们除了固定的用java写的,个人用的都是python的(用java的原因很大程度上是服务器是centos 7 jdk8更方便) 本帖最后由 闲聊状态 于 2022-5-20 08:50 编辑 |
[452 楼] 闲聊状态
[泡菜]
22-5-20 08:39
|
[451 楼] benniewang
[资深泡菜]
22-5-20 03:10
|
[450 楼] yejun
[老坛泡菜]
22-5-20 00:57
|
[449 楼] 闲聊状态
[泡菜]
22-5-20 00:00
|
[448 楼] benniewang
[资深泡菜]
22-5-19 23:53
找到一个好玩的库 pandasql, 可以在pandas里运行sql
|
[447 楼] arondes
[陈年泡菜]
22-5-19 23:27
|
[446 楼] 手倦抛书
[泡菜]
22-5-19 22:28
arondes 发表于 2022-05-19 21:45 其实现在用excel直接读取,觉得有点慢,不知道用个litesql能否好点 发布自 安卓客户端 |
[445 楼] arondes
[陈年泡菜]
22-5-19 21:45
|
[444 楼] benniewang
[资深泡菜]
22-5-19 21:32
|
[443 楼] benniewang
[资深泡菜]
22-5-19 21:28
|
[442 楼] benniewang
[资深泡菜]
22-5-19 21:27
大信 发表于 2022-5-19 09:27 就好像 for index, row in df.iterrows(): for i in range(0, len(df)): 更喜欢后者。多写点注释吧。 另外每个list的名字都可以定义成 name_list = [], email_list = [] 那么以后就可以 name = name_list[1] email = email_list[1] 来使用 一点不麻烦。 本帖最后由 benniewang 于 2022-5-19 21:35 编辑 |
[441 楼] 手倦抛书
[泡菜]
22-5-19 18:07
正在学习,pandas不知道读取sql有没有速度和内存优势
发布自 安卓客户端 |
[440 楼] 闲聊状态
[泡菜]
22-5-19 16:08
|
[439 楼] 大信
[泡菜]
22-5-19 09:44
|
[438 楼] 大信
[泡菜]
22-5-19 09:27
|
[437 楼] 闲聊状态
[泡菜]
22-5-19 08:39
|
[436 楼] 闲聊状态
[泡菜]
22-5-19 08:34
|
[435 楼] benniewang
[资深泡菜]
22-5-19 06:13
|
[434 楼] yejun
[老坛泡菜]
22-5-19 04:56
|
[433 楼] benniewang
[资深泡菜]
22-5-19 03:13
闲聊状态 发表于 2022-5-18 11:43 之前的公司处理的文本数据有英语 法语 德语 西班牙语等。。。大概10几种语言,编码确实是个问题。但是由于csv是我自己生成的,所以读取也没啥问题,因为在输出的时候特别注意。 现在的公司,就只有数值数据了。无比的欢乐。。。。 ![]() |
[432 楼] 闲聊状态
[泡菜]
22-5-18 11:43
看到 CSV 这东西就头皮发麻 先说那个默认分割“,” 导的出来,导不回去 再有就是字符集 要是还打算python折腾CSV 字符集的那个酸爽我实在是不堪回忆。。。。 遇到这种大的 如果是我弄出来的 原来都是access,现在基本上都是sqlite 大家都安逸 但是 总是有些人就是喜欢导CSV,而且是明明可以不CSV 他就非要 CSV 而且不改分隔符 哪怕改成 ''\U0001'' 分割也好 ![]() |
[431 楼] tianman
[泡菜]
22-5-18 11:08
闲聊状态 发表于 2022-5-18 10:17 数据分析通常都是将所需数据用SQL提取出来,再用专用软件包进行数据分析的。 简单的报表和报告,如果只是分类、统计、均值,一般用不到数据分析的手段。 |
[430 楼] benniewang
[资深泡菜]
22-5-18 11:07
|
[429 楼] benniewang
[资深泡菜]
22-5-18 11:05
话说回来,要是你会VBA,excel也能玩的很溜。而且这不还有个powerbi么,不会代码做做数据分析还是挺不错的,特别是出图很漂亮。 本帖最后由 benniewang 于 2022-5-18 11:08 编辑
|
[428 楼] 大信
[泡菜]
22-5-18 10:29
应该说在数据分析上SQL和pandas各有长处,各有各的应用场合。
在适合的地方用适合的工具,而不是无线拔高某一方、摒弃另一方,才是最切合实际的方法。 |
[427 楼] 闲聊状态
[泡菜]
22-5-18 10:17
tianman 发表于 2022-5-18 09:33 没有pandas的时候 大家的报表和分析报告都是靠冥想的么? 数据分析从来也没规定过只能依靠一种技术和路线 pandas这种东西我觉得主要的落地还是基于深度学习的“商业智能” 因为原来的机器学习那套 一般的库和基础构建 多多少少都有涉及 而且不是没有应用 深度这个是这几年大力发展的这方面除了python,剩下的都不算先进,而这些东西的基础数据存放基本上都是 pandas的dataframe 或者说 如果服务器上没插GPU,上不上python就看业务需要了 本帖最后由 闲聊状态 于 2022-5-18 10:28 编辑 |
[426 楼] tianman
[泡菜]
22-5-18 09:33
闲聊状态 发表于 2022-5-18 08:38 SQL(Structured Query Language)这个查询语言,最基本的目的是从大大小小的“仓库”中提取所需要的数据。 它天生就不适合做数据分析用。因为它的计算效率不行,也没有必要的分析手段。 除了简单的统计操作以外,用SQL做数据分析,基本上属于程序员炫技。。。 而pandas的设计就是为了数据分析用的,提供了专业的处理数据的函数和方法。强大而高效。 它的“内存库”“中转站” 是用来存放被分析对象的。 |
[425 楼] 闲聊状态
[泡菜]
22-5-18 08:38
benniewang 发表于 2022-5-18 04:29 生产库上跑大SQL肯定是不可原谅的 但是 数据库就使用来说 基本上也是分 数据仓库(OLAP)与数据库(OLTP)(也就是一般意义上的生产库了) 数据仓库是与生产库分开的,而且架构都不一定相同,不只有关系型数据库,更有Hadoop这种东西 这些库 跑大SQL基本上是常态,本来就是用来做分析的 pandas 就是个“内存库”“中转站” 小数据量咋都行,数据量上去了 不光内存受不了 取放数据也受不了 很多奇技淫巧且不说好不好用,就说在巨大的数据量面前 都是白给 这是我 日常折腾的表中的一张 一天的数据量就这些行 14084958360 列数也有限 就12列,正常SQL 每次至少3,4张类似体量的 pandas不当中转站能行么。。。。 本帖最后由 闲聊状态 于 2022-5-18 08:48 编辑 |