Web屏幕抓取:Semalt的有用提示

如今,数据已成为您最重要的资产。因此,让它滑入竞争对手手中绝不是一个好主意。但是,有时由于屏幕刮擦而很难防止这种情况。这项技术已经使用了多年,用于从网页中提取数据。

这种方法给企业带来了两个重大问题。首先,可以通过降低价格以及获取产品信息来利用数据来获得业务优势。同样,如果坚持不懈,该技术还可能降低网站的性能。

通常,屏幕抓取是由几十年前的早期终端仿真程序创建的概念。这是一种编程技术,可从旨在主要供人类查看的屏幕中提取信息。该程序伪装成人类,然后读取数据,收集有价值的信息并对其进行处理以进行存储。

这些年来,该技术已经有了长足的发展,特别是随着Web爬虫的发明。随着电子零售屏幕抓取的发展,例如价格比较网站,它进一步发展。这些网站采用的程序会定期访问流行的电子零售,以获取最新价格以及给定产品或服务的可用性信息。然后,此数据存储在数据库中,并用于提供电子零售环境的比较评论。

竞争性屏幕抓取对公司的IT系统具有多种负面影响,因为它只是有害流量的另一个示例。最近的研究证明,至少有61%的流量是由漫游器产生的。这些僵尸程序消耗了真正的Web用户所需的重要资源和带宽,这可能导致真实客户的延迟率增加。

屏幕刮擦已经进行了很长时间。但是,直到最近,这种行为的受害者才开始作出反应。一些公司声称不正当的商业行为和侵犯版权,而与此相反,进行报废的公司则通过声称信息自由来捍卫自己。

许多网站所有者已采取措施在其网页上编写使用政策,以禁止进行大规模抓取。不幸的是,他们无法执行这些策略,因此问题似乎不会很快消失。

几年前,eBay引入了一个API,该API允许良好的抓取工具访问您的数据。但是,它并不能阻止恶意收集信息以获取竞争优势。可以使用阻止非人类访问者访问网站的技术来获得唯一的防御。这允许真实用户访问您的网站,同时阻止爬网程序造成损害。

打击屏幕抓取的其他有效方法是使用IP信誉情报,欺骗性IP源检测,请求-响应行为分析,实时威胁级别评估和地理位置执法等技术。