丰色 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,要爬虫——现在用 一个电子表格就行了。
一行代码也别写,第三方软件也甭安。
只需在表格里 点几下就ok。
不信,你瞧:
就这么两下,网页上的商品信息都有了。
网友看完都惊呆了,码个不停。
一看到这是来自谷歌的产品(Google Sheet,谷歌的“Excel”),大家就 立马cue起了微软,问它慌不慌。
还有人称这是在“跨界打击”它。
△扫盲:“巨硬”就是微软,网友给的调侃
好不热闹。
来看具体怎么实现。
详细步骤
以爬亚马逊某个手机产品的商品页为例。
我们先打开谷歌Sheet (网友版即可),新建一个文档。
然后copy一下要爬的网址,粘进去。
剩下的都在Sheet里完成。
我们先列一下要爬的元素,这里依次为:
然后就可以正式开始爬了。
要诀就是一个叫做 ImportFromWeb的函数。
它也是个插件,没有的需要先安装一下 (安装地址放文末了),然后通过Google Sheet程序的“扩展程序”菜单导入就行。
我们只需把ImportFromWeb函数放进asin那一列,然后第一个参数选中刚刚粘过来的网址,第二个参数把要爬的元素单元格拖一遍 (除了“图片”)。
稍等个1~2s,价格、商品名等信息就都出来了!
还差图片。
简单~基操~
用IMAGE函数把G3格子里得到的图片网址值给过去就行。
至此,第一个商品页里的东西就爬到了。
唯一麻烦的是,如果还需要爬更多商品的信息,需要把商品网址挨个粘一遍。
然后就没啥了,除了给单元格地址的行标列标加一下 绝对引用符“$”。
这里可以不学视频,直接一个 f4就行。
拖一下,全部搞定!
怎么样?是不是非常方便。
看完整个操作,你也发现了,其实就是谷歌写了个脚本给咱封装好了直接用。
而据官方介绍,这个ImportFromWeb功能还能 自动更新爬取到的信息。
而且只要是用JS写的网站都可以爬 (基本等于绝大数网站了),每个函数还可支持50个url,以及数千个数据点。
快点 码起来吧~
— 完—
MEET 2023 大会启动
邀你共论智能产业穿越周期之道
今年12月,MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾,共同探讨人工智能行业破局之道。
欢迎智能科技企业参会,分享突破性成果,交流时代级变革,共襄盛会!点击链接或下方图片查看大会详情:
量子位「MEET 2023智能未来大会」启动,邀你共论智能产业穿越周期之道
点这里关注我 记得标星噢 ~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~