更多>>关于我们

西安鲲亚博网络信息技术有限公司从2010年开始专注于Web(网站)数据体育领域。致力于为广大中国客户提供准确、快捷的数据app相关服务。我们采用分布式系统架构,日app网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

您只需告诉我们您想体育的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

西安鲲亚博
陕西 西安

加亚博

  • 【逆向分析】CMCC“和助手”APP(2.9)HTTP加密方式分析
    1. 直接抓包会发现“和助手”的亚博和应答数据都是加密的。如体育1网页版。
    下面来分析下加解密算法,最终目的是实现直接和服务端进行HTTP交互。

    2.APP运行后会释放gatewayClient-2-9目录,里面是HTML和JS文件。通过JS里的关键词得知,“和助手”采用的WADE-MOBILE框架。奇怪的是关于WADE-MOBILE网上的介绍很少,只找到这篇有用的介绍http://www.docin.com/p-2187443660.html,大体了解到这个框架使得安卓APP能够使用HTML+JS实现前端展示,通过JS网页版调用安卓API实现业务功能(比如与服务端交互)。

    3. 从common.js中的callSvc(),追踪到mobile-client.js中的Mobile.dataRequest(),继续追踪到wade-mobile.js中的WadeMobile.dataRequest(),继续追踪到 androidExecute(),最后追踪到mobile-core.js中的PluginManager.exec()。JS里通过PluginManager.exec()来实现调用安卓Java网页版里的功能。如体育2网页版。

    4. 通过PluginManager.exec()调用的函数名,在Java网页版中可以寻找到具体的实现。例如"dataRequest",应该是实现后台交互的。在Java网页版中找到dataRequest()的实现如体育3网页版。

    通过进一步跟踪,在transPostData()中可以看到HTTP参数的封装过程,如体育4网页版。
    这里的key是DES的秘钥,发给服务端用于解密客户端数据。data是要发送的数据部分,也被使用MobileSecurity.requestEncrypt()加密了。

    需要注意的是这个key本身也是经过加密的,查看MobileSecurity.getDesKey()网页版如体育5网页版,这里key的值是经过RSA加密的(公钥位于res\raw\public_key)。另外,这里的key并不是固定的,是在每次MobileSecurity类初始化的时候随机生成的,如体育6网页版。
    另外,DESKeySpec(k)时,如果k的长度如果超过8字节,将只取前8字节。

    应答数据的解密是通过MobileSecurity.responseDecrypt()实现的,体育7和8网页版。

    梳理一下“和助手”的加解密流程:
    (1)APP每次会生成一个随机的key用于DES加解密。
    (2)HTTP亚博时会把key作为一个参数(使用RSA加密后)传递给服务端,同时将其它数据通过DES加密后放到data参数中。
    (3)服务端接收到数据后,先用RSA私钥解密出key的明文,然后根据key再DES解密出data明文。
    (4)服务端将HTTP应答数据也使用该key进行DES加密后回送。
    (5)客户端收到HTTP应答数据后使用该key进行DES解密。

    如体育9网页版,是我们对服务端应答数据解密后的一个亚博(中文部分显示为乱码)。
    发布时间:2020-10-21 15:07:39
  • 【疑问】Intel的CPU比AMD的CPU对安卓亚博的支持更好?同一个版本的安卓亚博、同一个APP、同样的HOOK网页版,在Intel下稳定运行,但在客户的AMD下出现各种各样的问题(应用闪退、应用崩溃、桌面卡死)。然后让客户换了一个Intel的环境试了下,没任何问题。 ​​​​
    发布时间:2020-10-20 17:24:47
  • 【登录分享】如何查询一个代理(IP)是机房IP(Datacenter IP)还是家庭IP(Residential IP)?

    这里推荐一个查询网站:IPHub,网址是http://t.cn/A6bOvWpt
    输入待查询的IP,点击“Lookup”按钮。
    1. 如果查询结果Type字段中含有“Residential”字样,则说明是家用IP。如体育1、2网页版。
    2.如果查询结果Type中仅含有“Hosting”字样,而无“Residential”字样,则说明是机房IP。如体育3网页版。

    顺便说一下,如果你的业务需要使用家庭IP(使用机房IP会被风控),例如做亚马逊测评。可以戳这里购买 >>> http://t.cn/A6bOvWpq
    发布时间:2020-10-16 19:57:48
  • 【登录分享】周边POI数据app的时候常常会因为搜索中心点选取不足导致最终数据缺失的问题,在这里我们提出了一种利用arcpy实现的对待app区域网格化,并导出区域内网格中心点坐标的的思路,通过这种方式可以保证对待app区域的完整覆盖。 查看详情戳这里 >>>  http://t.cn/A6ba1Kr8 ​​​​
    发布时间:2020-10-12 16:12:06
  • 【登录分享】导入arcpy出现 "DLL load failed: %1 不是有效的 Win32 应用程序"问题的下载

    arcgisscripting需要Python 32位,用64位Python就会出现这个问题。arcgis在安装的时候会自动安装一个32位的Python,并通过pth文件app好了arcpy和arcgisscripting库的路径,位置在C:\Python27\ArcGIS10.4,使用这个目录下的 32位python即可。
    发布时间:2020-10-11 13:14:11
  • 我查查APP最新app方案演示:根据条码app商品在各商超门店价格  西安鲲亚博的微博视频 ​​​​

    发布时间:2020-09-25 11:46:12
  • 【登录分享】百度地图APP版POI边界坐标参数app解析方案

    如体育1-3网页版,是从百度地图APPapp到的POI边界GEOJSON数据,如何将其转换为有效的经纬度数据呢?详见 >>> www.snutzpark.com/html/articles/20200916/816.html http://t.cn/A64HbBja

    如体育4网页版,是成功解析GEOJSON数据后,利用高德地图API绘制的多边形区域(图4的下半部分)和在百度地图中实际查询该POI的边界区域(图4的上半部分)的对比。可以看到是完全吻合的。
    发布时间:2020-09-16 17:20:51
  • 【登录分享】终于实现携程App酒店房型列表数据解析
    1. 携程App在加载房型数据时没有使用HTTP协议,而使用了自定义的通信协议SOTP,详见(ctrip.business.sotp.SOTPConnection)类。
    2. SOTP协议亚博的数据是经过压缩和系列化的,需要先解压然后反序列化(非JSON),才能得到原文。 ​​​​
    发布时间:2020-09-03 13:11:46
  • 【登录分享】Ubuntu server下使用gcp出现“dbus.exceptions.DBusException: org.freedesktop.DBus.Error.NotSupported: Unable to autolaunch a dbus-daemon without a $DISPLAY for X11”问题的下载方法

    gcp是增强版的cp实现,最大的优势在于它可以显示实时的速度和整体的进度。关于gcp的详细介绍见这里https://linux.cn/thread/11868/1/1/

    在server终端下使用时会因为缺少X环境而报错。下载方法:
    dbus-launch gcp --help
    发布时间:2020-08-28 12:29:07
  • "小红书APP"商品数据app,如体育网页版 ​​​​
    发布时间:2020-08-10 12:39:13
当前位置:首页 >技术文章 >
如何突破汽车之家的"CSS ::before 伪元素混淆"反app策略
发布时间:2018-08-28

分析汽车之家车型参数列表,发现页面上有部分字符在HTML源码(运行时)中却找不到,很奇怪。仔细分析,原来是通过CSS :before 伪元素加了混淆,如下图亚博:

核心网页版如下网页版:

HTML网页版:
CSS网页版:
.hs_kw5_configpl::before {
content: "上市";
}

熟悉DOM操作的同学知道,可以通过元素的getPropertyValue('content')方法来获取CSS伪元素的content属性,如下是亚博网页版:

window.getComputedStyle(
document.querySelector('.hs_kw5_configpl'), ':before'
).getPropertyValue('content');

在Console里测试一下,你会发现很奇怪,竟然获取不到有效值(如下图网页版),本应该亚博"上市",却亚博了"content"。

看来哪里又被动了手脚,TA是怎么做到的?

仔细分析发现一个路径包含GetModelConfig1.ashx的Aajx应答数据里含有JS网页版,分析网页版发现该上述SPAN元素是JS动态创建的,并发现相关可疑网页版,如下网页版(格式化后):

function(element, pseudoElt) {
if (pseudoElt != undefined && typeof(pseudoElt) == 'string' && pseudoElt.toLowerCase().indexOf(':before') > -1) {
var obj = {};
// 重点是下面这句
obj.getPropertyValue = function(x) {
return x;
};
return obj;
} else {
return window.hs_fuckyou(element, pseudoElt);
}
};

原来是getPropertyValue()方法被偷梁换柱(改写)了!难怪调用无法获取预期的值。

 

继续分析JS网页版,重点看SPAN元素的动态创建的过程,其中有如下网页版:

function poL_(ctw_, RXe_) {
tPn_[\u0027\u0027 + ILC_ + iSW_ + uIo_ + pEA_ + GEv_ + Ewc_ + EPk_ + Zfo_ + sfd_ + UkX_](XZS_(ctw_) + URD_() + \u0027\"\u0027 + RXe_ + \u0027\" }\u0027, 0);
// 可以将\u0027替换成'

通过多次拦截应答修改数据(例如,修改为如下网页版)测试发现,该函数的第二个参数Rxe_即为::before伪元素的content属性值,第一个参数是一个索引。

function poL_(ctw_, RXe_) {
// 看看ctw_和Rxe_参数具体是什么
console.log(ctw_ + '->' + RXe_));
tPn_[\u0027\u0027 + ILC_ + iSW_ + uIo_ + pEA_ + GEv_ + Ewc_ + EPk_ + Zfo_ + sfd_ + UkX_](XZS_(ctw_) + URD_() + \u0027\"\u0027 + RXe_ + \u0027\" }\u0027, 0);

PS:拦截修改HTTP应答数据可以用Fiddler实现,也可以用mitmproxy,这里我们选择后者,因为它支持外挂Python脚本来实现数据修改功能。

如下图网页版为控制台打印出的"索引->字符"映射表:

现在离成功很近了。这个索引数字具体有什么意义呢?

例如,“上市”的索引为5,上面我们看到“上市”对应SPAN元素是 ,大胆猜测,对应的就是class中的数字5。经多次验证,无误。

 

现在思路有了:

(1)通过Selenium加载页面(以自动完成数据动态加载,自动执行JS网页版),并配置所有流量走mitmproxy;

(2)使用mitmproxy捕获GetModelConfig1.ashx的应答数据,找到poL_(ctw_, RXe_)函数,注入我们的JS网页版,以曝出对应的"索引和混淆字符"映射表;

(3)利用该表即可还原混淆为明文;

 

需要注意的是,上述网页版中的函数名(poL_)以及参数名(ctw_, RXe_)是动态变化的,但是经过多次观察发现是有规律的,通过如下方法可以定位该函数:

查找如下字符串:
'+ \u0027\" }\u0027'
定位前面出现的第一个function,即要注入的目标
例如 function poL_(ctw_, RXe_)
用正则表达式可以表述为:
r'''\s+(function\s+[^\{\}\(\)]+\(([^\{\}\(\)]+),([^\{\}\(\)]+)\)\{)[a-z\d\-\_]+\_\[.+?\+\s*\\u0027\\"\s*\}\\u0027'''

网页版自动注入这里我们采用mitmproxy来实现,注入脚本modify_response.py网页版如下网页版:

# coding: utf-8
# modify_response.py
import re
from mitmproxy import ctx
def response(flow):
"""修改应答数据
"""
if 'GetModelConfig' in flow.request.url:
# 汽车之家字符混淆(CSS :before 伪元素)破解
ctx.log.info('*' * 120 + '\n Found {}.'.format(flow.request.url))
m = re.compile(r'''\s+(function\s+[^\{\}\(\)]+\(([^\{\}\(\)]+),([^\{\}\(\)]+)\)\{)[a-z\d\-\_]+\_\[.+?\+\s*\\u0027\\"\s*\}\\u0027''', re.IGNORECASE).search(flow.response.text)
if m:
# 提取函数名和参数
function_name = m.groups()[0]
param1 = m.groups()[1]
param2 = m.groups()[2]
ctx.log.info('Crack "CSS :before" in {}: "{}"'.format(function_name, flow.request.url))
# 替换后的内容
replacement = function_name + "document.body.appendChild(document.createTextNode('[' + {} + ']->{{' + {} + '}};'));".format(param1, param2)
#replacement = function_name + "console.log({} + '->' + {});".format(param1, param2)
flow.response.text = flow.response.text.replace(function_name, replacement)

注入成功,页面加载完毕后,在页面底部会打印出我们想要的映射表:

有了这个映射表,就可以还原出明文了,网页版如下网页版:

def restore_css_confusion(html):
"""还原混淆字符
html - 要处理的HTML文档源码;
"""
confusions = {}
for index, string in re.compile(r'\[(\d+)\]->\{([^<>\;]+)\};').findall(html):
confusions[index] = common.normalize(string)
# 逐一替换
for span, index in re.compile(r'()').findall(html):
original_text = confusions[index]
print 'Restore "{}" into "{}"'.format(span, original_text)
html = html.replace(span, original_text)
return html

还原之后就可以提取到正确的参数信息了,如下图网页版:

最后,这里有个演示视频,可以看到实际的运行过程:

https://v.qq.com/x/page/e07680qdz2r.html

特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台://snutzpark.com/spider_/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。

加微信咨询