私享 AList 被 Google 索引了怎么办? | AList 隐私设置

2024-9-7|2024-9-7
D_SUPER
D_SUPER
type
Post
status
Published
date
Sep 7, 2024
slug
alist_robots_txt
summary
AList 是一个功能强大的自部署“网盘”,能挂载多种存储,提供 webdav 协议播放视频,可以小范围分享文件,可以配合自部署图床等。但个人使用的站点被 Google 索引了怎么办?该如何提升文件“私有性”?
category
技术分享
tags
AList
icon

AList 是一个支持挂载多种存储,支持网页浏览和 WebDAV 的文件列表程序,由 gin 和 Solidjs 驱动。部署后能在手机 Webdav 访问网盘视频,公开分享文件,配合 PicGo 作图床,或者作为某些笔记软件的在线存储。
支持挂载的存储 (截至 24-9-6)
  • 本地存储
  • FTP / SFTP
  • WebDAV(支持无API的OneDrive/SharePoint)
  • SMB
  • Cloudreve
  • IPFS
最近发现个人部署的 AList 站点被 Google 收录了,由于部署 AList 的服务器性能较弱,不希望带来额外负担。同时,考虑 AList 挂载的网盘大量公开访问的风险。因此,需要解决被 Google 收录问题。

检查 AList 设置

配置 Robots.txt

Robots.txt 文件主要用于管理 Web 爬网程序类(爬虫、搜索引擎)的良性机器人活动,例如设置允许谷歌爬取的站点路径。
(注:是君子协议,恶意机器人不太可能遵循这些说明)
AList 默认的爬虫规则为:允许爬虫访问所有页面
  • Allow: / 表示允许搜索引擎的爬虫访问所有页面
User-agent: * Allow: /
如果想禁止爬虫访问所有页面,AList 后台 设置站点Robots.txt 改为:
User-agent: * Disallow: /
1. 注意修改后点击保存; 2. robots.txt文件中的 Disallow 指令并不能保证 Google 完全不索引网页,但它会告诉爬虫不要爬取这些页面。

允许索引选项

AList 后台 设置站点 本身有一个 允许索引 选项,我开始误以为关闭此按钮可以禁止 Google 索引。检查 AList 设置说明,发现这个选项不是控制是否允许搜索引擎爬虫访问的功能。
允许索引 是否允许其他人挂载你的AList后进行索引构建,勾选后开启。 默认为关闭状态,谨慎使用。 (v3.8.0 新增功能)
notion image

删除 Google 收录

手动操作

进入 Google Search Console 选择 AList 网盘域名
选择 IndexingRemovals 移除指定链接;
notion image
  • 请求移除您想要删除的页面URL。这将暂时从搜索结果中移除URL(大约6个月),但如果页面仍然存在,Google可能会在未来重新抓取和索引该页面。

确认网页已被移除:

在几天或几周后,使用Google搜索该网页的URL或网页标题,检查是否已经从搜索结果中移除。如果网页仍然出现在搜索结果中,可能是因为Google还没有重新爬取您的网站。 即便您采取了上述所有措施,Google仍可能需要一段时间来更新其索引。搜索引擎的索引更新是一个持续的过程,具体时间取决于多种因素,包括网站的规模、更新频率和网页的重要性。

结语

你可以在 Google 中使用 site + 域名 site: pan.xxxx.xx 检查你的网盘是否被索引了。如果被“意外”索引,尽早处理吧!
下次安装 AList 时注意设置 Disallow !!!

推荐阅读

 
💡
有关AList安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~

阿里云盘严重安全漏洞,用户照片恐遭泄露配置 ufw 管理 docker 端口 | 提升 Linux 安全性
  • Twikoo
  • Waline
  • Cusdis