B-cat是一个基于浏览器的语言学研究工具,可以存储可搜索的录音和正则表达式的面试成绩单、搜索结果、整个成绩单和媒体,可以以各种格式查看或导出。
【功能介绍】LIWC比较。
结合CELEX的时间排列信息和音节数,可以计算不同领域的语速。
每分钟的音节数,线条和转折的音节数。
斯坦福解析器
在斯坦福解析器的帮助下,可以为成绩单生成可编辑的语法树。
跨语法元素的注释。
解析树表示
脚本
可以用Python或Javascript编写脚本来执行数组计算和注释任务。
计算双重可变性指数的Python脚本。
IBM沃森的人格洞察
B-cat可以与IBM Watson的个性洞察网络服务集成,分析成绩单的个性。
手动注释
例如,可以手动添加注释。
主题标签
单个单词的文本标签。
时间点或间隔可以用Praat注释。
用Praat标记点。
【软件功能】检索。
一旦笔记本和笔记都准备好了,就可以搜索符合一定标准的笔记本了(比如基于说话人的年龄/性别,笔记本所属的语料库等)。).
按属性过滤扬声器。
当选择说话者时,他们可以在不同的层中搜索他们的句子,以找到文本或正则表达式。
在“成人”主题中搜索“the”,然后在音素层搜索以I,e,I或@开头的单词。
这将返回所选抄本中与查询匹配的所有语句的列表。
搜索结果
如有必要,该列表可与相关说话人和注释信息一起直接导出到csv文件,以便在Excel或r中进一步分析。
搜索结果
或者可以提取音频样本进行分析。
从结果中提取音频。
也可以直接使用EMU-webApp编辑语句注释和对齐。
使用EMU-webApp编辑电话校准。
如果语句已经被强制对齐,Praat可以用来批处理目标段。
使用Praat进行批量处理,以提取形状和其他声学测量。
批处理Praat可以包括您自己的自定义Praat脚本。
用户定义的Praat脚本,用于批量处理搜索结果。
此外,如果您点击搜索返回的陈述,您将生成演讲者的完整书面记录,该记录将与相关陈述一起放在屏幕顶部。你可以点击文字记录的任何部分,播放媒体的相应部分。
交互式文本草稿
直接从互动转录页面播放媒体,显示其他标注图层,提取该行的音频,或者在Praat中打开包含标注的对应TextGrid。您可以添加、编辑或删除注释并调整对齐方式。
以及媒体笔记本的存储。
B-cat本质上是一个时间对齐的音频/视频记录副本的存储库。转录器、Praat或ELAN(可用于创建文件,将转录文本与音频/视频记录中的相应位置对齐)可用于制作时间对齐的转录本。然后将记录上传到LaBB-CAT,这样就可以存储关于演讲者和记录的附加信息。
转录者、Praat或ELAN的转录本。
征求意见的任务。
您还可以定义归纳任务,包括提示参与者阅读并提出问题让他们回答。
当参与者完成任务时(使用他们的浏览器或移动设备),他们的声音将被记录并自动直接上传到LaBB-CAT。
自动注释
结合信号数据、原始正字法成绩单和一些第三方数据和工具,成绩单可以自动标记,例如。
词汇标签
来自CELEX的评论借助CELEX数据,可以自动评论更多数据的文字。
语音学
摘要
形态学
色调
频率
其他字典也可以整合,包括CMU发音字典和Unisyn字典。
强制对齐
在HTK或WebMAUS的帮助下,在语句级别对齐的成绩单可以在单词和段落级别强制对齐。
强制与HTK对齐。
统计层
LaBB-CAT数据库本身的词频数据可以直接计算和标注每个单词。
词频层
语言查询和字数统计(LIWC)可以用来比较语料库和参考语料库。