网站抓取攻击类型和如何保护

在未经网站所有者许可的情况下提取数据时,网站抓取被认为是恶意的。两个最常见的用例是价格抓取和内容盗窃。

价格爬取

在价格抓取中,犯罪者通常使用僵尸网络启动抓取机器人来检查竞争业务数据库。目标是获取定价信息、削弱竞争对手并促进销售。

攻击经常发生在产品易于比较且价格在购买决策中起着重要作用的行业。价格爬取的受害者可能包括旅行社、售票员和在线电子产品供应商。

网站抓取攻击类型和如何保护
网站抓取攻击类型和如何保护

例如,以相对一致的价格销售类似产品的智能手机电子交易商经常成为目标。为了保持竞争力,他们有动力提供尽可能最优惠的价格,因为客户通常会选择成本最低的产品。为了获得优势,供应商可以使用机器人不断抓取竞争对手的网站,并立即相应地更新自己的价格。

对于肇事者来说,成功的价格抓取可能会导致他们的报价在比较网站上突出显示 – 客户将其用于研究和购买。同时,被抓取的网站经常会遭受客户和收入损失。

内容抓取

内容抓取包括从给定站点进行的大规模内容窃取。典型的目标包括在线产品目录和依赖数字内容推动业务的网站。对于这些企业来说,内容抓取攻击可能是毁灭性的。

例如,在线本地企业目录投入大量时间、金钱和精力来构建其数据库内容。刮取可能导致它全部被释放到野外,用于垃圾邮件活动或转售给竞争对手。这些事件中的任何一个都可能影响企业的底线及其日常运营。

以下内容摘自Craigslist 提交的 投诉,详细介绍了其在内容抓取方面的经验。它强调了这种做法的破坏性:

“[内容抓取服务] 每天都会向 craigslist 发送大量数字机器人,以复制和下载数百万 craigslist 用户广告的全文。[该服务] 然后不分青红皂白地将这些盗用的列表——通过其所谓的“数据馈送”——提供给任何想要出于任何目的使用它们的公司。一些这样的‘客户’每月为这些内容支付高达 20,000 美元……”

根据索赔,抓取的数据用于垃圾邮件和电子邮件欺诈,以及其他活动:

“[被告] 然后从该数据库中获取 craigslist 用户的联系信息,并每天向从 craigslist 服务器获取的地址发送数千封电子邮件…… [消息] 在垃圾邮件正文中包含误导性的主题行和内容,旨在诱使 craigslist 用户从使用 craigslist 的服务切换到使用 [捍卫者的] 服务……”

网页抓取保护

恶意爬虫程序日益复杂,导致一些常见的安全措施失效。例如, 无头浏览器机器人 可以伪装成人类,因为它们在大多数缓解解决方案的雷达下飞行。

该过程涉及因素的交叉验证,包括:

  • HTML 指纹– 过滤过程从对 HTML 标头的细粒度检查开始。这些可以提供有关访客是人还是机器人,恶意还是安全的线索。将标头签名与包含超过 1000 万个已知变体的不断更新的数据库进行比较。
  • IP 声誉 ——我们从针对客户的所有攻击中收集 IP 数据。来自曾被用于攻击的 IP 地址的访问会受到怀疑,并且更有可能受到进一步审查。
  • 行为分析 – 跟踪访问者与网站互动的方式可以揭示异常行为模式,例如可疑的攻击性请求率和不合逻辑的浏览模式。这有助于识别伪装成人类访客的机器人。
  • 渐进式挑战 ——我们使用一系列挑战,包括 cookie 支持和 JavaScript 执行,来过滤机器人并最大程度地减少误报。作为最后的手段,验证码挑战可以淘汰试图将自己伪装成人类的机器人。

以上就是网站抓取攻击类型和如何保护的全部内容。推荐相关阅读:《什么是抓取、收录和索引》

Add a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注