网页爬虫?那是什么?

Celia 201 0

    NYAA是UWC学生可选参加的一个国际户外课程(Outdoor Education),只不过它是所有户外课程中最难的一个,也是唯一一个参与后能拿到奖项的活动。参与其中的学生从九月开学开始,要做许多前期的准备,包括长期的Activity和Services,然后在2020年四月再去参加澳洲3天的Outdoor Expedition。有人觉得这个活动和我之前参加的澳洲骑马之旅有些重复,我却觉得这两次旅行的性质完全不同:十月的澳洲骑马之旅纯粹是为了在当地的一个营地体验骑马以及一种返璞归真的生活,而四月的NYAA澳洲旅行则是挑战自我,在野外恶劣的环境中运用自己旅行前学到的所有实用的知识与生存的技巧,开辟出一条道路,努力走向终点。

    四月,离我们越来越近了。在Expedition之前,做了许多准备,例如如何使用指南针,如何使用地图,搭帐篷时的注意事项以及要做哪些事物。一切都准备得是那么的充分,一部分同学甚至参加了Training Weekends,一个在去澳洲之前的训练。参加的同学需要沿着新加坡的海岸线负重徒步,然后回到学校的操场上自己煮饭,搭帐篷过夜。由于我是第二波去Training Weekends的,所以还未去,但当去过的同学聊起Training Weekends的时候,都说很有挑战性,非常好玩。

    在Training Weekend的一个星期前,我已经买好了所有的衣物,我们徒步小组负责准备事物的F同学也购买好了Traning Weekend那天晚上做晚餐的食材。然而就在这时,冠状病毒爆发了。

    仿佛晴天霹雳一般,我们的Training Weekend被取消了。其实这没什么大不了的,我们小组里的同学都认定学校一定是给Training Weekend改个时间而已。但不久之后,随着冠状病毒在全球猖狂地肆虐,学校里的所有Outdoor Expeditions都被取消了。NYAA的澳洲之旅也不例外。大家都不太敢相信这个消息。在所有的Expeditions中,我们这些参加NYAA的同学一定是损失最为惨重的。其他的Expeditions,取消的后果无非就是浪费了一些买好的装备,退钱的过程也有些麻烦,但NYAA的同学们做的所有准备,总共写出来总结Activity和Services的几千字文章,都排不上用场了。

    就在那个星期,带领NYAA的老师几乎被学生们的抱怨声淹没了。老师也是一脸懵,束手无策,这有什么办法呢?School trips are cancelled,这不是明摆着我们拿不到NYAA的奖项了吗?我此时的内心想法:无论用什么办法,我都一定要拿到NYAA的奖!

    不过事实证明,这个出名的NYAA课程,也是有两把刷子的。大概是之前有其他学校发生过于我们差不多的事情,不能参加户外活动,NYAA创造了另外一种也能拿到奖项的方法:做一个Project。

    刚听到这个要求,大家都有些傻眼。我们project的主题已经想好了,那就是保护野生动物,禁止动物走私。但这个project的形式会是什么呢?这个范围实在是太大了,从美术作品,到文学分享再到计算机编程,都在要求的范围内。再加上小组成员的志趣爱好全都不同,要打成共识实在是不简单。例如我们小组里,有两位同学精通美术艺术创作,对理科的计算和逻辑一窍不通,另一位同学和我,对理科到是非常感兴趣,但看到艺术作品就头疼。几个小组成员都非常强势,到了最后也没有达成共识,于是我们就分成了两个小小组,一部分做艺术,一部分编程,最后再尝试合并在一起。

    所以,就这样,我们就开始了各自的project。既然我和F同学想一起做编程的project,就要做一个比较现代的、入主流的。现在中国最受欢迎的语言之一就是Python,其不但能进行机器学习,还可以做网站爬虫:我虽然是这个领域的小白一只,但我经常接触网络爬虫,对这个黑科技非常感兴趣。下面是我这几天research收集到的一些关于爬虫的介绍:

怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段 HTML 代码,加 JS、CSS,如果把网页比作一个人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的。

    就这样,我的小白爬虫学习正式开始了!后续的博文将记录我精彩的学习记录。

标签: 编程 设计 事件

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~

登录
用户名
密码
注册
用户名
密码
确认密码
找回密码
用户名
邮箱
※ 重置链接将发送到邮箱