找回密码
 立即注册
搜索
查看: 1997|回复: 18

[软件] 求用python爬取网页字段进excel的教程

[复制链接]
     
发表于 2024-3-2 16:32 来自手机 | 显示全部楼层 |阅读模式
接近0基础,代码只会用用vba,最好是那种从零开始的系统性的视频教学中的某一章讲了这个这种,接受那种网课付费培训的教学,需自救,求推荐,谢谢
回复

使用道具 举报

     
发表于 2024-3-2 16:40 | 显示全部楼层
试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun
回复

使用道具 举报

     
 楼主| 发表于 2024-3-2 16:44 来自手机 | 显示全部楼层
noahhhh 发表于 2024-3-2 16:40
试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun

因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-2 16:49 | 显示全部楼层
Ogus 发表于 2024-3-2 16:44
因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来 ...

https://sspai.com/series/271
少数派会员送过这教程,应该可以满足你需求,我看过下就是对纯新手还是有点难度的

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2024-3-2 17:13 | 显示全部楼层
python 下用headless browser?
回复

使用道具 举报

     
发表于 2024-3-2 17:19 | 显示全部楼层
这东西学得快忘得也快,大致了解一下其他的做的再查就好了
回复

使用道具 举报

     
发表于 2024-3-2 17:21 | 显示全部楼层
具体需求说一下,说不定有大佬几行代码帮你搞定了
回复

使用道具 举报

     
发表于 2024-3-2 17:24 | 显示全部楼层
转 excel 那步你们是手操 openpyxl 还是调 pandas
回复

使用道具 举报

     
发表于 2024-3-2 17:34 | 显示全部楼层
不求甚解的话很快就能搞定
1.环境用vscode,b站搜搭建教程(几个小时)
2.需要懂点html这样你才知道要爬的东西有什么特征,只需要了解div、class、id、h1、h2、span这些常见的都是什么东西(一到两天)
3.对于楼主说的保存到表格,可以把爬下来的数据放到csv文件里,大概需要爬完之后手动改下编码为带bom的utf8(记事本打开另存为)不然excel打开会乱码
4.分析下要爬的网址有什么特征,比如连续变化的数字或者有意义的字母
明确需求以后直接问gpt,代码运行有什么问题都可以问它,不出意外的话花个几天时间等到代码能跑起来你就可以面向gpt编程了
回复

使用道具 举报

     
发表于 2024-3-2 17:42 来自手机 | 显示全部楼层
本帖最后由 hein 于 2024-3-2 17:46 编辑

Excel的vba不是可以直接扒网站吗?
一个是数据->自网站 这个功能
还有一个使用vba代码扒好,然后用正则处理数据,写入单元格。
回复

使用道具 举报

     
发表于 2024-3-2 17:54 来自手机 | 显示全部楼层
另外就是扒网站其实是很复杂的事,很多网站都是通过各种js实时加载内容,有些还涉及token、http get、post等
每个网站都要单独分析代码应对。
回复

使用道具 举报

     
发表于 2024-3-2 18:06 来自手机 | 显示全部楼层
上面说的对,爬网站要看对方的反爬力度如何,另外新手ide个人建议用pycharm

—— 来自 Xiaomi MI 8, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2024-3-2 18:07 | 显示全部楼层
whzfjd 发表于 2024-3-2 17:24
转 excel 那步你们是手操 openpyxl 还是调 pandas

保存csv with utf-8-sig

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-3-2 19:04 来自手机 | 显示全部楼层
我8gen2起码能苟到8gen6

没错。爬虫框架,反爬虫,网页解析,存文件,这里头爬虫框架和存文件是最简单的两步。
回复

使用道具 举报

     
发表于 2024-3-2 19:06 来自手机 | 显示全部楼层
草。怎么s1会缓存我历史回复。。
回复

使用道具 举报

发表于 2024-3-2 22:22 | 显示全部楼层
数据量不是很大的话,新手用seleium吧,比较直观,缺点是速度慢了点,但是适应性广。爬虫速度快,准确率高,除了需要网站配合,其他没啥缺点了,碰到网站难搞的就真的难搞了
回复

使用道具 举报

     
发表于 2024-3-3 00:27 | 显示全部楼层
最好透露下是什么网站,不同网站难度不一样。
别最后学了半天搞不定就好玩了。
回复

使用道具 举报

     
发表于 2024-3-3 01:11 来自手机 | 显示全部楼层
当然是用2023年最新最in的图形化爬虫保存内容为csv  https://github.com/NaiboWang/EasySpider
回复

使用道具 举报

     
发表于 2024-3-3 10:22 | 显示全部楼层
建议先selenium写csv搞定吧。

—— 来自 S1Fun
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-6-6 07:32 , Processed in 0.081379 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表