基于深度学习的CMS识别 (一)图片分类识别

楼楼作为一个初学深度的新手,只能简单说下关于CMS识别中自己的思路,如有错误,欢迎指出。

传统的CMS识别访问一个url获取指定特征,当指纹库越大,识别速度越慢。

那么,将深度学习用于CMS识别会如何呢?

博主认为,CMS识别可用深度学习中的文本识别模式或者图片识别模式完成。

本章就先对图片识别做个简单测试,步骤也是基本相当。因为现在的大部分深度学习框架的简便,我们只需要作出大量样本,打上相应的标签,用一个适应的模型,放到各种框架中学习就可以了。关于DNN,CNN等一些底层的原理,不用过多了解。这里博主选择caffe来进行深度学习。



## 1.样本制作

图片学习中需要大量样本,这些样本网上似乎也没有可用的可以直接下载的。所以博主首先开发了基于传统的识别模式的CMS识别平台 https://whatcms.hacking8.com/ 来收集大量样本。

 

然后需要写一个脚本对每个网站首页截屏,由于工程的复杂性,博主只对Discuz的网站进行了操作。

1.png

Ps:先用discuz测试可行性

 

## 2. 合适模型

模型选择很随意,因为自己写不出模型,就用最有名的呗GoogLeNet

 

## 3.从入门到放弃

前面的一切都是美好的想象,因为样本中每个图片大约10M左右,加载样本的时候电脑直接卡死了,就不谈学习了。。。

 

提供一个思路,抛砖引玉。


相关推荐

发表评论

路人甲
看不清楚?点图切换

网友评论(0)