Stage1st

 找回密码
 立即注册
搜索
查看: 1887|回复: 18
打印 上一主题 下一主题

[软件] 求用python爬取网页字段进excel的教程

[复制链接]
     
跳转到指定楼层
楼主
发表于 2024-3-2 16:32 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
接近0基础,代码只会用用vba,最好是那种从零开始的系统性的视频教学中的某一章讲了这个这种,接受那种网课付费培训的教学,需自救,求推荐,谢谢
回复

使用道具 举报

     
2#
发表于 2024-3-2 16:40 | 只看该作者
试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun
回复

使用道具 举报

     
3#
 楼主| 发表于 2024-3-2 16:44 来自手机 | 只看该作者
noahhhh 发表于 2024-3-2 16:40
试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun

因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
4#
发表于 2024-3-2 16:49 | 只看该作者
Ogus 发表于 2024-3-2 16:44
因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来 ...

https://sspai.com/series/271
少数派会员送过这教程,应该可以满足你需求,我看过下就是对纯新手还是有点难度的

—— 来自 S1Fun
回复

使用道具 举报

     
5#
发表于 2024-3-2 17:13 | 只看该作者
python 下用headless browser?
回复

使用道具 举报

     
6#
发表于 2024-3-2 17:19 | 只看该作者
这东西学得快忘得也快,大致了解一下其他的做的再查就好了
回复

使用道具 举报

     
7#
发表于 2024-3-2 17:21 | 只看该作者
具体需求说一下,说不定有大佬几行代码帮你搞定了
回复

使用道具 举报

     
8#
发表于 2024-3-2 17:24 | 只看该作者
转 excel 那步你们是手操 openpyxl 还是调 pandas
回复

使用道具 举报

     
9#
发表于 2024-3-2 17:34 | 只看该作者
不求甚解的话很快就能搞定
1.环境用vscode,b站搜搭建教程(几个小时)
2.需要懂点html这样你才知道要爬的东西有什么特征,只需要了解div、class、id、h1、h2、span这些常见的都是什么东西(一到两天)
3.对于楼主说的保存到表格,可以把爬下来的数据放到csv文件里,大概需要爬完之后手动改下编码为带bom的utf8(记事本打开另存为)不然excel打开会乱码
4.分析下要爬的网址有什么特征,比如连续变化的数字或者有意义的字母
明确需求以后直接问gpt,代码运行有什么问题都可以问它,不出意外的话花个几天时间等到代码能跑起来你就可以面向gpt编程了
回复

使用道具 举报

     
10#
发表于 2024-3-2 17:42 来自手机 | 只看该作者
本帖最后由 hein 于 2024-3-2 17:46 编辑

Excel的vba不是可以直接扒网站吗?
一个是数据->自网站 这个功能
还有一个使用vba代码扒好,然后用正则处理数据,写入单元格。
回复

使用道具 举报

     
11#
发表于 2024-3-2 17:54 来自手机 | 只看该作者
另外就是扒网站其实是很复杂的事,很多网站都是通过各种js实时加载内容,有些还涉及token、http get、post等
每个网站都要单独分析代码应对。
回复

使用道具 举报

     
12#
发表于 2024-3-2 18:06 来自手机 | 只看该作者
上面说的对,爬网站要看对方的反爬力度如何,另外新手ide个人建议用pycharm

—— 来自 Xiaomi MI 8, Android 10上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
13#
发表于 2024-3-2 18:07 | 只看该作者
whzfjd 发表于 2024-3-2 17:24
转 excel 那步你们是手操 openpyxl 还是调 pandas

保存csv with utf-8-sig

论坛助手,iPhone
回复

使用道具 举报

     
14#
发表于 2024-3-2 19:04 来自手机 | 只看该作者
我8gen2起码能苟到8gen6

没错。爬虫框架,反爬虫,网页解析,存文件,这里头爬虫框架和存文件是最简单的两步。
回复

使用道具 举报

     
15#
发表于 2024-3-2 19:06 来自手机 | 只看该作者
草。怎么s1会缓存我历史回复。。
回复

使用道具 举报

16#
发表于 2024-3-2 22:22 | 只看该作者
数据量不是很大的话,新手用seleium吧,比较直观,缺点是速度慢了点,但是适应性广。爬虫速度快,准确率高,除了需要网站配合,其他没啥缺点了,碰到网站难搞的就真的难搞了
回复

使用道具 举报

     
17#
发表于 2024-3-3 00:27 | 只看该作者
最好透露下是什么网站,不同网站难度不一样。
别最后学了半天搞不定就好玩了。
回复

使用道具 举报

     
18#
发表于 2024-3-3 01:11 来自手机 | 只看该作者
当然是用2023年最新最in的图形化爬虫保存内容为csv  https://github.com/NaiboWang/EasySpider
回复

使用道具 举报

     
19#
发表于 2024-3-3 10:22 | 只看该作者
建议先selenium写csv搞定吧。

—— 来自 S1Fun
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-7 05:36 , Processed in 0.024699 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表