短链接平台-搭建属于你自己的短链接搭建短链跳转平台

欢迎朋友们使用我的短链跳转 hell0.us

1. 什么是短链接

顾名思义,短链接即是长度较短的网址。通过短链接技术,我们可以将长度较长的链接压缩成较短的链接。并通过跳转的方式,将用户请求由短链接重定向到长链接上去。短链接主要用在短信、社交分享时通过使用短链接,可以看起来整洁简短,而不是在担心链接超长的问题。

这里以我刚才分享给朋友的PFF资料的为例,我们使用平常链接,因为链接中有汉字转化为链接会又臭又长

https://cdn.wang19.cn/%E5%B0%8F%E5%AD%A6%E3%80%90%E6%95%99%E8%82%B2%E6%95%99%E5%AD%A6%E7%9F%A5%E8%AF%86%E4%B8%8E%E8%83%BD%E5%8A%9B%E3%80%91.pdf

如此长的链接占据微博篇幅不说,也会影响美观度。这个时候我们可以使用短链接服务压缩一下上面的长链接,压缩后的链接为:

hell0.us/cVn4

可以看到,压缩后的链接长度比原链接明显变短了

2.常见短域平台

短域平台的域名一定要短,有些东西需要长,而短链接一定要端,比如最著名的短链有

  • 新浪 t.cn 现在只能跳转企业用户,普通会被拦截提示
  • 百度dwz.cn 现在只能跳转企业用户
  • 腾讯url.cn 微博倒闭,官方并没有停止解析,但也没有对外开放接口
  • 阿里tb.cn 只服务于阿里系自家电商平台,其他链接无法使用
  • bit.ly 国外比较大的短链 功能全 可惜被墙了
  • youtu.be Youtube家自用
  • b233.tv Bilibili家自用

非常好用的短链一般都只服务企业或自家产品,因为非法网站太猖狂了,其他短链又多又复杂最主要的是不稳定,不如搭建一个自己的

3.平台搭建

我所使用的是Github开源项目UrlShorting
项目地址:https://github.com/soxft/UrlShorting
两个域名也是白女票来的
yao9.top是阿里云免费注册的
hell0.us是Porkbun免费注册的 .us

4. 常见的短链接压缩算法

常见的短链接压缩算法有两种,第一种是对 URL 进行hash运算,在得到的hash值上做进一步运算,得到一个较短的hash值。第二种是通过数据库自增ID或分布式key-value系统模拟发号器进行发号压缩URL。两种方式各有优劣,hash运算简单易实现,但是有一定的冲突率。随着 URL 压缩数量的增加,冲突数也会增加,最终导致一部分用户跳转到错误的地址上,影响用户体验。而发号器发号压缩 URL 优缺点恰好和hash压缩算法相反,优点是不存在冲突问题。缺点是,实现上稍复杂,要协调发号器取初始号。本文对应的练手项目是基于第二种压缩算法实现的,下面也将对详细分析第二种算法。

5. 使用发号策略压缩URL

发号策略是这样的,当一个新的链接过来时,发号器发一个号与之对应。往后只要有新链接过来,发号器不停发号就好。举个例子,第一个进来的链接发号器发0号,对应的短链接为 xx.xxx/0,第二个进来的链接发号器发1号,对应的短链接为 xx.xxx/1,以此类推。
发号器发出的10进制号需要转换成62进制,这样可以大大缩短号码转换成字符串后的长度。比如发号器发出 10,000,000,000 这个号码,如果不转换成62进制,直接拼接在域名后面,得到这样一个链接 xx.xxx/10000000000。将上面的号码转换成62进制,结果为AOYKUa,长度只有6位,拼接得到的链接为 xx.xxx/AOYKUa。可以看得出,进制转换后得到的短链接长度变短了一些。6位62进制数,对应的号码空间为626,约等于568亿。也就是说发号器可以发568亿个号,这个号码空间应该能够满足多数项目的需求了,所以基本上不用担心发号器无号可发的情况。
上述是发号策略压缩URL的原理,在实际写代码的过程中还需要考虑很多细节,比如缓存,存储等。本文对应的项目基于 Redis 缓存,MySQL 数据库实现了一个简单的分布式短链接服务。代码放到了 Github 上了 -> 分布式短链接项目代码

6. 几个细节问题

Q:同一长链接,每次转成的短链接是否一样

A:同一长链接,每次转成的短链接不一定一样,原因在于如果查询缓存时,如果未命中,发号器会发新号给这个链接。需要说明的是,缓存应该缓存经常转换的热门链接,假设设定缓存过期时间为一小时,如果某个链接很活跃的话,缓存查询命中后,缓存会刷新这个链接的存活时间,重新计时,这个链接就会长久存在缓存中。对于一些生僻链接,从存入缓存开始,在存活时间内很可能不会被再次访问,存活时间结束缓存会删除记录。下一次转换这个生僻链接,缓存不命中,发号器会重新发号。这样一来会导致一条长链接对应多条短链接的情况出现,不仅浪费存储空间,又浪费发号器资源。那么是否有办法解决这个问题呢?是不是可以考虑建立一个长链接-短链接的key-value表,将所有的长链接和对应的短链接都存入其中,这样一来就实现了长短链接一一对应的了。但是想法是美好的,现实是不行的,原因在于,将所有的长链接-短链接对存入这样的表中,本身就需要耗费大量的存储空间,相对于生僻链接可能会对应多条短链接浪费的那点空间,这样做显然就得不偿失了。

Q:短链接使用301跳转还是302跳转

A:这里啰嗦一下301和302的跳转在短链接服务使用场景下的区别:用户第一次访问某个短链接后,如果服务器返回301状态码,则这个用户在后续多次访问统一短链接,浏览器会直接请求跳转地址,而不是短链接地址,这样一来服务器端就无法收到用户的请求。如果服务器返回302状态码,且告知浏览器不缓存短链接请求,那么用户每次访问短链接,都会先去短链接服务端取回长链接地址,然后在跳转。从语义上来说,301跳转更为合适,因为是永久跳转,不会每次都访问服务端,还可以减小服务端压力。但如果使用301跳转,服务端就无法精确搜集用户的访问行为了。相反302跳转会导致服务端压力增大,但服务端此时就可精确搜集用户的访问行为。基于用户的访问行为,可以做一些分析,得出一些有意思的结论。比如可以根据用户IP地址得出用户区域分布情况,根据User-Agent消息头分析出用户使用不同的操作系统以及浏览器比例等等。

作者: 王药酒

药 酒 本 酒 | 备 考 事 业 编 中

发表评论

邮箱地址不会被公开。 必填项已用*标注