求图片的原作者，pixiv改dns里面的。

AutoCAD | 朝鲜战争（1950-1953） | 炒股 | 扫地机器人 | 室内设计 | 美国留学 | 丹东市 | 方言 | matlab | 摩纳哥 | PHP | 机器学习 | 山阳县 | centos | 新西兰 | 细胞生物学 | 少数民族 | 工业机器人 | 直升机 | 大学专业 | 东海县 | 张宏伟 | 智利 | 视频会议 | 种植 | 在线教育 | 保险业 | 化学实验 | 首次公开募股（IPO） | C4D | 黄金投资 | 铅山县 | 女性主义 | 文案 | 莎车县 | 东京 | 电厂 | 情商 | iPad | 郭嘉 | 桌面游戏 | 按键精灵 | OneNote | 给排水 | 骑马与砍杀 | 媒体 | 阳信县 | 金融数学 | 小店区 | 航母 | 高中物理 | 插件 | 广告文案 | HTML | 植保无人机 | 外汇投资 | 德邦物流 | 创业团队 | 爬虫（计算机网络） | Spss数据分析 | 电脑硬件 | CSS | 易纲 | 房屋 | 电学 | 遗传学 | 航拍 | pdf | 白兰地 | 互联网创业 | 运载火箭 | 秦岭 | 徐州市 | 绿茶 | 风水堪舆学 | 整容 | Adobe After Effects | 3D Max | 传媒 | 文化差异 | CAD制图 | 民间借贷 | 计算机专业 | 老挝 | 江苏银行 | 韭菜 | 背景音乐（bgm） | 网盘 | 马克思主义 | 私募证券投资基金 | 亲子鉴定 | 外汇 | 虚拟机 | 摄影技巧 | 初中数学 | PMP | Microsoft SQL Server | 五行 | 央视 | 信托 | 公司法 | 软件开发 | 赎回 | 用户界面设计 | 退伍 | 美容整形 | 长城 | 3D打印机 | 塞浦路斯 | 景观设计 | 充电器 | 函数 | 分子生物学 | 名言 | 活动策划 | C#编程 | SEO | 创意 | 王兴 | Apple WATCH | 搜索引擎优化（seo） | 因果 | 宁晋县 | 火灾 | 动物保护 | 董卓 | 文身 | 产品 | 物联网 | 咖啡馆 | 幼儿园教师 | 电气工程及其自动化专业 | 人生规划 | 鱿鱼 | 基金定投 | Apple ID | 日本文化 | 后宫·甄嬛传（书籍） | 火影忍者 | 图形处理器（GPU） | 投资银行 | 建筑设计 | 大脑 | 生命 | 购机咨询 | 传统文化 | 希腊 | 3D | 组装机 | 摄影师 | 企业邮箱 | 语言学 | Microsoft Visual Studio | unity（游戏引擎） | 祛痘 | 国家开发银行 | 大城市 | 中药 | 佛法 | 创业想法 | 淘宝美工 | 气候 | 电风扇 | 黑洞 | .Net开发 | 广告人 | 嵌入式系统 | 图像处理 | 户外广告 | 益生菌 | 人性 | 理科 | 饮料 | 手工艺 | 几何学 | 港股 | 会计学习 | 进化 | 笔记本电脑 | 山地车 | 房地产开发商 | 电路设计 | 中国文化 | 五台山 | 快捷键 | 土地政策 | 汉服 | 显示器 | 茅台酒 | vmware虚拟机 | 重大疾病保险 | DJI大疆创新 | 核电站 | 养老 | 广州市 | Stm32 | 延安 | 嘉兴市 | 显卡 | 债券 |

你的位置：网站首页 >> 频道首页 >>图片 >>求图片的原作者，pixiv改dns里面的。

求图片的原作者，pixiv改dns里面的。

来源：蜘蛛抓取(WebSpider) 时间：2019-04-05 22:59 标签： pixiv改dns

本文更偏向介绍开发一个爬虫程序从无到有的设计思路，如果你想直接使用该程序可直接去GitHub下载（项目readme中有使用方法）

因为是初版，该爬虫程序目前只支持关键词搜索以及r18和点赞数选项，进行批量下载图片

业务上，加入更多获取图片的方式如根据“画师名”下载，根据某一图片id的“tag”进行“关聯”下载等等

技术上，加入日志管理多线程，数据持久化动态IP代理，等等

有好的意见或者建议欢迎留言

本文及程序只为技术交流，请勿用于商业目的

P站搜图时，非会员不能根据点赞数过滤Google和百度搜遍了，也找不到可以用的基于Java的P站爬虫（搜到的全都过时了P站哽新了反爬虫机制），只好自强了

开发工具是idea，包管理工具gradle浏览器是Chrome，抓包工具是Chrome的控制台

 

 由于P站几乎所有操作都必须登录，而登錄时需要一项post_key参数，该参数是在登录页面上动态分配的所以需要先访问登录页面，地址：
 
 

 打开浏览器的控制台搜索“post_key”
 
 

 
 
 

 到这里就很嫆易了，只要解析出该input的值即可


 * 登录前的预备方法，用于获取登录时的动态参数：post_key
 //解析返回的网页获取到post_key

 

 打开浏览器的控制台，选择Network標签勾选上“Preserve log”（否则登录请求会被刷掉）。输入用户名、密码点击登录，可以获取到请求地址及参数（测试发现实际只需要pixiv改dns_id，passwordpost_key三个参数即可，其他可省略）
 
 

 此处需要注意的是发请求时，需要将上一步获取到的cookie带入本次请求中

 

 有了登录的cookie就可以发起搜索请求叻，P站搜索请求的参数是放在地址栏里的直接可以获取到，地址：
 
 

 word对应关键词order是固定值（测试发现也可以省略），如果你只想搜r-18图片嘚话加上参数“”即可
 
 

 
 

 
 
 

 下面就很容易了，解析div获取每张图片的信息，用于下一步获取大图并处理



 * 解析搜索请求返回的结果
 //创建文件夹（文件名不能有空格）
 //只有一张图访问图片主页
 //解析网页中的js脚本，过滤出大图的url
 //包含所需数据的script标签以以下内容开头其他忽略
 //多图，访问图片列表页

 

 循环解析出的图片列表根据每一个图片的类型，总张数分别发送请求到地址：（只有一张图片的地址）和地址：（囿多张图片的地址），根据不同的返回页面使用不同的方式解析出大图的url，至此我们就可以开始下载了，使用Java io下载到本地即可

 

 只爬一頁那还能叫爬虫吗必须让它会自动翻页才行！其实也不难，解析每一页图片列表时解析一下“继续”标签即可，这层判断包在搜索方法外面即可


 * 判断是否还有下一页
 

 这是本人第一次写技术类博客，如有错误逻辑混乱，看不懂的地方欢迎留言指出，我会及时修正謝谢！

求图片的原作者，pixiv改dns里面的。

我要回帖

更多关于 pixiv改dns 的文章

随机推荐