[394 楼] arondes
[陈年泡菜]
22-5-14 01:18
大信 发表于 2022-5-9 12:20  在使用pandas的Dataframe的时候遇到一个问题,报错信息显示“页面文件太小,无法操作”,以及out of memory
我编写的python程序中使用了多线程,dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况,当多进程启动后内存占用逐步提高,在接近9GB的时候,程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?
请路过的各位python专家帮忙看看报错信息,分析原因帮忙解决。 谢谢!
@nahcooo @yejun @benniewang @闲聊状态 看看能不能把dataframe里面的一些字段的数据类型压缩一下 比如用int8 float16 还有就是最好回避object类型
|
[393 楼] Cityrain
[陈年泡菜]
22-5-13 17:07
想想心痛 发表于 2022-05-13 15:43当然python当作一门编程语言,当然能搞定一切,但得结合数据库才能搞定,如果和excel配合是不行的。 哈哈,我经常把数据库的数据拉到python里处理,灵活性比数据库高很多。单独数据库很难做到全程自动化,但用编程语言就可以把信息输入,处理,结果输出和呈现一口气搞定。 发布自 iOS客户端
|
[392 楼] E3U3
[泡菜]
22-5-13 17:04
python虽然编起来简单,有大量第三方库支持,但基本的循环,判断等编程逻辑思想,数据结构知识还是要有的。
|
[391 楼] 想想心痛
[泡菜]
22-5-13 15:43
Cityrain 发表于 2022-5-13 15:15  这些东西如果数据不大的话,应该excel就能搞定。 数据的处理和计算的话,python理论上可以搞定一切,当然只学个入门课程是不太够的。我access没怎么用过,但应该不比Oracle之类的强大,你觉得access能搞定的,我看python铁定可以办到。 当然python当作一门编程语言,当然能搞定一切,但得结合数据库才能搞定,如果和excel配合是不行的。
|
[390 楼] Cityrain
[陈年泡菜]
22-5-13 15:15
想想心痛 发表于 2022-05-13 12:59主要是涉及财务对账方面的内容。比如:一家外协厂商领料加工,每月加工费对账,但同时涉及领用的材料,要计算加工所用材料的正常损耗,超出损耗扣材料... 这些东西如果数据不大的话,应该excel就能搞定。 数据的处理和计算的话,python理论上可以搞定一切,当然只学个入门课程是不太够的。我access没怎么用过,但应该不比Oracle之类的强大,你觉得access能搞定的,我看python铁定可以办到。 发布自 iOS客户端
|
[389 楼] 想想心痛
[泡菜]
22-5-13 12:59
大信 发表于 2022-5-13 10:21  很感兴趣,你说的办公自动化具体是什么内容,为啥access可以完成而python不能? 主要是涉及财务对账方面的内容。比如:一家外协厂商领料加工,每月加工费对账,但同时涉及领用的材料,要计算加工所用材料的正常损耗,超出损耗扣材料费等,剩下材料结存加上月结存共结存多少。
|
[388 楼] 至暗时刻
[禁言中]
22-5-13 12:52
把Python编译成EXE文件体积太大了, 动辄几十MB甚至成百MB, 玩了几次就放弃了. 有段时间迷上了PHP编译, 把PHP程序编译成EXE最小只有500多KB. 即使打包几个库进去通常也只有2-4MB. 于是用PHP写了很多小玩意儿编译成了小巧的命令行小工具, 真是方便至极. 感觉PHP在处理文字、图片、数据库、文件系统甚至爬虫这些方面并不比Python差, 玩熟练了一样简单好用.
|
[387 楼] alchen
[老坛泡菜]
22-5-13 11:32
python适合不想在计算机语言上花费太多精力的人。也被程序员选择用于强调开发效率的场景。
|
[386 楼] 大信
[泡菜]
22-5-13 10:21
想想心痛 发表于 2022-5-10 10:38  以办公室自动化目标来学python的,到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化,如果真有这类需求,学习的目标应该是access。 很感兴趣,你说的办公自动化具体是什么内容,为啥access可以完成而python不能?
|
[385 楼] 闲聊状态
[泡菜]
22-5-11 11:03
现在办公室都让卸载office了
装WPS
access 没戏了
用sqlite吧 python就集成了。。。
大数据 还是sql吧 我是不习惯 pandas 里来回的鼓捣数据,就是觉得不如sql方便
|
[384 楼] 至暗时刻
[禁言中]
22-5-11 08:57
想想心痛 发表于 2022-5-10 10:38  以办公室自动化目标来学python的,到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化,如果真有这类需求,学习的目标应该是access。 这是两码事. 只有Python实现不了你的目标, 只有 Access更实现不了你的目标. 所以2个都要学.
|
[383 楼] benniewang
[资深泡菜]
22-5-10 23:37
大信 发表于 2022-5-10 09:12  excel处理数据就不够干净、整齐吗? 能不能解释一下? 不是excel处理后的数据不够干净整齐,是excel无法处理不够干净整齐的数据。 数值型的没啥问题,但是字符数据的清理,excel根本不行。除非用vba,跟python没啥区别了。
|
[382 楼] benniewang
[资深泡菜]
22-5-10 23:33
大信 发表于 2022-5-10 09:08  凭上面的文字和图片,你怎么判断是生产项目的? 就算在单位做项目,也都是一些带有研究性质的,不会用到实时,不会用到多线程,至少自己不会去开,或许有的库会自动做多线程处理,但这是库的功能而已。有的项目数据量确实很大,但是从来也达不到内存溢出的情况。不过就算遇到也不是什么大问题,公司有专门的计算服务器,再不行,放在云上。 研究性质的项目,代码怎么方便怎么来,不考虑代码运行效率,因此不做代码优化,唯一的要求是代码编写效率要高,要迅速把算法用代码实现,然后让机器慢慢的跑就行了。
|
[381 楼] 想想心痛
[泡菜]
22-5-10 10:38
以办公室自动化目标来学python的,到后来就会发现这是一个骗局。python根本无法实现所谓的办公自动化,如果真有这类需求,学习的目标应该是access。
|
[380 楼] 大信
[泡菜]
22-5-10 09:12
benniewang 发表于 2022-5-9 21:28  那是你没用到而已,比方说:数据很干净,数据格式很整齐。。。 excel处理数据就不够干净、整齐吗? 能不能解释一下?
|
[379 楼] 大信
[泡菜]
22-5-10 09:10
nahcooo 发表于 2022-5-9 17:41  看着就是内存不足的原因,你的9GB占用是从哪里得到的?资源管理器刷新要时间,对于瞬间的高占用可能无法及时显示。
你可以试着每次大量开内存前先在python里主动询问一下内存剩余,并且记录日志。这样应该比资源管理器准确。 就是从资源管理器看内存占用,实际上比较滞后。内存用尽程序已崩溃,但是资源管理器还没有显示。 python 查询内存是个好办法!
|
[378 楼] 大信
[泡菜]
22-5-10 09:08
benniewang 发表于 2022-5-9 21:29  我做的基本都不是生产的项目,所以从来没碰到过这样的事情。 凭上面的文字和图片,你怎么判断是生产项目的?
|
[377 楼] yejun
[老坛泡菜]
22-5-10 02:29
大信 发表于 2022-5-9 14:08  的确就是内存不足的原因。 我把程序放到服务器上运行,那里有256GB内存,运行完全没有问题。
Windows 上资源管理器中对使用内存的显示滞后,以至于给我错觉9GB就崩溃,可能那时候实际使用的内存已经达到硬件极限,只是没有显示出来而已。
谢谢! 内存不够可以考虑上pandas+pyspark+数据湖,就可以处理大数据了。 本帖最后由 yejun 于 2022-5-10 02:33 编辑
|
[376 楼] benniewang
[资深泡菜]
22-5-9 21:29
大信 发表于 2022-5-9 12:20  在使用pandas的Dataframe的时候遇到一个问题,报错信息显示“页面文件太小,无法操作”,以及out of memory
我编写的python程序中使用了多线程,dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况,当多进程启动后内存占用逐步提高,在接近9GB的时候,程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?
请路过的各位python专家帮忙看看报错信息,分析原因帮忙解决。 谢谢!
@nahcooo @yejun @benniewang @闲聊状态 我做的基本都不是生产的项目,所以从来没碰到过这样的事情。
|
[375 楼] benniewang
[资深泡菜]
22-5-9 21:28
想想心痛 发表于 2022-5-5 13:33  为电子表格处理没必要学python,原因是python并不能提供更高级的处理方式,还不如多学学excel自带的函数有用,比如:xlookup(),dget() 那是你没用到而已,比方说:数据很干净,数据格式很整齐。。。
|
[374 楼] nahcooo
[资深泡菜]
22-5-9 17:41
大信 发表于 2022-5-9 12:20  在使用pandas的Dataframe的时候遇到一个问题,报错信息显示“页面文件太小,无法操作”,以及out of memory
我编写的python程序中使用了多线程,dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况,当多进程启动后内存占用逐步提高,在接近9GB的时候,程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?
请路过的各位python专家帮忙看看报错信息,分析原因帮忙解决。 谢谢!
@nahcooo @yejun @benniewang @闲聊状态 看着就是内存不足的原因,你的9GB占用是从哪里得到的?资源管理器刷新要时间,对于瞬间的高占用可能无法及时显示。 你可以试着每次大量开内存前先在python里主动询问一下内存剩余,并且记录日志。这样应该比资源管理器准确。
|
[373 楼] 闲聊状态
[泡菜]
22-5-9 14:11
大信 发表于 2022-5-9 14:08  的确就是内存不足的原因。 我把程序放到服务器上运行,那里有256GB内存,运行完全没有问题。
Windows 上资源管理器中对使用内存的显示滞后,以至于给我错觉9GB就崩溃,可能那时候实际使用的内存已经达到硬件极限,只是没有显示出来而已。
谢谢! 不谢啊 也没帮上什么忙
|
[372 楼] 大信
[泡菜]
22-5-9 14:08
闲聊状态 发表于 2022-5-9 13:06  看提示就是 内存不足
找个32G的机器试试? 是不是有复制DataFrame 的操作?9*2 >16 ? 的确就是内存不足的原因。 我把程序放到服务器上运行,那里有256GB内存,运行完全没有问题。 Windows 上资源管理器中对使用内存的显示滞后,以至于给我错觉9GB就崩溃,可能那时候实际使用的内存已经达到硬件极限,只是没有显示出来而已。 谢谢!
|
[371 楼] 闲聊状态
[泡菜]
22-5-9 13:06
大信 发表于 2022-5-9 12:20  在使用pandas的Dataframe的时候遇到一个问题,报错信息显示“页面文件太小,无法操作”,以及out of memory
我编写的python程序中使用了多线程,dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况,当多进程启动后内存占用逐步提高,在接近9GB的时候,程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关?
请路过的各位python专家帮忙看看报错信息,分析原因帮忙解决。 谢谢!
@nahcooo @yejun @benniewang @闲聊状态 看提示就是 内存不足 找个32G的机器试试?  是不是有复制DataFrame 的操作?9*2 >16 ?
|
[370 楼] 大信
[泡菜]
22-5-9 12:20
在使用pandas的Dataframe的时候遇到一个问题,报错信息显示“页面文件太小,无法操作”,以及out of memory 我编写的python程序中使用了多线程,dataframe等技术。通过任务管理器观察程序启动运行时的内存占用情况,当多进程启动后内存占用逐步提高,在接近9GB的时候,程序就发生崩溃。而实际配置的内存是16GB 。感觉这个问题似乎跟python的内存配置有关? 请路过的各位python专家帮忙看看报错信息,分析原因帮忙解决。 谢谢! @nahcooo @yejun @benniewang @闲聊状态
|
[369 楼] nahcooo
[资深泡菜]
22-5-5 16:20
手倦抛书 发表于 2022-3-6 09:33  学了一个月爬虫,一般网页没啥问题了,但碰上全js网站就抓瞎了,逆向js太难了,看见那密密麻麻的js代码就头大 那种不需要去解析js,应该直接用webdriver打开页面后再去访问页面上的元素
|
[368 楼] 想想心痛
[泡菜]
22-5-5 13:33
午夜半杯茶 发表于 2022-3-6 14:21  从没学过编程的学Python难吗,只学关于电子表格处理的部分。 为电子表格处理没必要学python,原因是python并不能提供更高级的处理方式,还不如多学学excel自带的函数有用,比如:xlookup(),dget()
|
[367 楼] yejun
[老坛泡菜]
22-5-5 08:29
发现一个很有意思的project,可以直接在浏览器里面执行python。连numpy这样的库都支持。
https://github.com/pyscript/pyscript
|
[366 楼] 闲聊状态
[泡菜]
22-3-30 09:02
午夜半杯茶 发表于 2022-3-6 14:21  从没学过编程的学Python难吗,只学关于电子表格处理的部分。 我觉得这东西做电子表格的话,主要就是做“数据透视表” 如果只是干这个 用accress里写SQL也可以啊 而且SQL比python还简略 高效 我对上下取值补空 是很反感 有就是有 没有就是垃圾数据。。。 本帖最后由 闲聊状态 于 2022-3-30 09:03 编辑
|
[365 楼] 大信
[泡菜]
22-3-29 22:55
午夜半杯茶 发表于 2022-3-6 14:21  从没学过编程的学Python难吗,只学关于电子表格处理的部分。 如果功能不复杂,可能用excel处理更适合。 如果有比较复杂的处理逻辑或者重度数据的清洗整理,Python+Pandas+Numpy是不错的组合,也非常方便最终生成excel表格
|