任务需求
信息检索导论课的大作业要求完成一个搜索引擎,以下是搜索引擎的需求。
最近在做Web安全技术的大作业,大作业是做密码分析的东西,一个密码可以理解为一个序列,可以使用NLP的方法。
在大作业中,有个任务要做中文分析,比如出现了哪个中文字。比如,密码中可能存在“woainixxxx”这样的形式,如何里面的中文拼音分开,这里想到了Seq2Seq模型,训练数据可以是“woaini”,然后输出为“wo ai ni”,让神经网络帮我们加上空格。
这里先想到了之前学Udacity的ud730的LSTM时候留的作业,之前一直没有做。感觉这是一个很好例子,不过有点儿难,暂时没去用TensorFlow来原生实现,这里将使用Keras来做。
这里的任务是单词镜像,其实就是把单词反转一下。
十一一到,天气实在是有点儿冷了。不止不觉冬天又要到了,雾霾也要来了。为了自己身体的健康,以及了解当前的空气质量是否适合外出锻炼,感知空气的状况还是很有必要的。PM2.5作为空气污染因素的重要指标,弄一个PM2.5检测仪可以说是个不错的选择。
那么,我们先来淘宝一下,看看成品的PM2.5都是什么价位的。这里可以看到700的、1000的、500的,什么价格的都有。
(注:由于现在域名全都要备案了,.tech 域名不让备案,下面的nladuo.tech统一更改为nladuo.cn)
在上一节中,我们在不知道原理的条件下调用了requests.get方法下载了HTML页面。在本节中,我们来说说什么是HTTP请求和它的特点。
在HTTP请求中,主要有GET和POST两种方式,其主要区别在于:
对于网络爬虫来说,其本质就是发送http请求,然后提取网页的内容信息进行入库分析等操作,所以对于任何语言都可以构建爬虫应用。我曾经就用过C#、C++、Java、Swift、Golang、Python这些语言来编写爬虫应用。
总结来说,这里还是最推荐python,其优点就是学习简单,并且库十分全面,编写起代码来十分轻巧,另外python拥有丰富的机器学习库、数据处理库,如scikit-learn、numpy、pandas等等,可以用来处理我们爬取的数据。
不止不觉中,已经大学毕业上了研究生了,其实这一系列教程很早就想开始写,由于一堆事情加上拖到了现在。
大概是大二下学期刚开学的时候,我开始接触了Web开发,那个时候跟着网上看视频,学习了HTTP Get与Post请求,了解了网站是怎么个工作的。我当时突然联想到了平时都在用的课程格子,想着十分有趣,想着能不能用这种技术去做这样一款查课表的东西。
于是乎,网上寻找资料,了解了登陆的原理,以及如何获取到Cookie。当时,我最熟悉的语言是C#,从网上找了个解析HTML的dll,用着自带的HttpWebRequest就开始搞了。那时还不会用chrome,用的HttpWatch,也遇到了很多坑,不过也通过自己的努力把学校的课表搞下来了。
不过,我发现单纯搞个课表也并没有什么卵用,于是我想到了当时正值学校抢课期间,我就做个抢课软件,那还不吊炸天。
最近在抽时间学习TensorFlow这个DL库的使用,学的断断续续的,看官网上第一个案例就是训练手写字符识别, 我之前在做Weibo.cn验证码识别的时候,自己搞了一个数据集,当时用的c++库tiny-dnn进行训练的(见:验证码破解技术四部曲之使用卷积神经网络(四)),现在我把它移植到TensorFlow上试试。
完整代码见:weibo.cn/tensorflow-impl
数据集下载地址:training_set.zip
这几天在搞在线文档预览,网上查了几种方案,